論文の概要: Reward function compression facilitates goal-dependent reinforcement learning
- arxiv url: http://arxiv.org/abs/2509.06810v1
- Date: Mon, 08 Sep 2025 15:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.223039
- Title: Reward function compression facilitates goal-dependent reinforcement learning
- Title(参考訳): リワード関数圧縮はゴール依存型強化学習を促進する
- Authors: Gaia Molinaro, Anne G. E. Collins,
- Abstract要約: 強化学習エージェントは報酬から学習するが、人間はゴールに依存した方法で、新しく抽象的な結果に価値を割り当てることができる。
目標に依存しない学習は、最初は容量制限のワーキングメモリシステムによって支援される。
我々の研究は、効率的なゴール指向学習は、複雑なゴール情報を安定した報酬関数に圧縮することに依存することを示唆している。
- 参考スコア(独自算出の注目度): 2.470815298095903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents learn from rewards, but humans can uniquely assign value to novel, abstract outcomes in a goal-dependent manner. However, this flexibility is cognitively costly, making learning less efficient. Here, we propose that goal-dependent learning is initially supported by a capacity-limited working memory system. With consistent experience, learners create a "compressed" reward function (a simplified rule defining the goal) which is then transferred to long-term memory and applied automatically upon receiving feedback. This process frees up working memory resources, boosting learning efficiency. We test this theory across six experiments. Consistent with our predictions, our findings demonstrate that learning is parametrically impaired by the size of the goal space, but improves when the goal space structure allows for compression. We also find faster reward processing to correlate with better learning performance, supporting the idea that as goal valuation becomes more automatic, more resources are available for learning. We leverage computational modeling to support this interpretation. Our work suggests that efficient goal-directed learning relies on compressing complex goal information into a stable reward function, shedding light on the cognitive mechanisms of human motivation. These findings generate new insights into the neuroscience of intrinsic motivation and could help improve behavioral techniques that support people in achieving their goals.
- Abstract(参考訳): 強化学習エージェントは報酬から学習するが、人間はゴールに依存した方法で、新しく抽象的な結果に価値を割り当てることができる。
しかし、この柔軟性は認知的にコストがかかり、学習の効率が低下します。
本稿では,目標に依存しない学習が,最初は容量制限型ワーキングメモリシステムでサポートされていることを提案する。
一貫した経験から、学習者は「圧縮された」報酬関数(ゴールを定義するシンプルなルール)を作成し、フィードバックを受け取ると、長期記憶に転送され、自動的に適用される。
このプロセスは、作業メモリリソースを解放し、学習効率を向上します。
この理論を6つの実験で検証する。
予測結果と一致して,学習は目標空間の大きさによってパラメトリックに障害を受けるが,目標空間構造が圧縮を可能にすると改善されることを示す。
また、より高速な報酬処理によって、より良い学習パフォーマンスと相関し、ゴールバリュエーションがより自動化されるにつれて、より多くのリソースが学習に利用可能になるという考えを支持します。
我々はこの解釈をサポートするために計算モデルを利用する。
我々の研究は、効率的な目標指向学習は、複雑な目標情報を安定した報酬関数に圧縮することに依存しており、人間のモチベーションの認知メカニズムに光を当てていることを示唆している。
これらの発見は、本質的なモチベーションの神経科学に関する新たな洞察を生み出し、目標達成を支援する行動技術の改善に役立つかもしれない。
関連論文リスト
- Truly Self-Improving Agents Require Intrinsic Metacognitive Learning [59.60803539959191]
自己改善エージェントは、最小限の監督で継続的に新しい能力を取得することを目的としている。
現在のアプローチは2つの重要な制限に直面している。自己改善プロセスは、しばしば厳格であり、タスクドメイン全体にわたって一般化できない。
我々は、効果的な自己改善は、エージェントの本質的な能力として定義された固有のメタ認知学習を必要とし、自身の学習プロセスを積極的に評価し、反映し、適応させる。
論文 参考訳(メタデータ) (2025-06-05T14:53:35Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Successor Feature Neural Episodic Control [17.706998080391635]
強化学習の長年の目標は、速い学習と、人間や動物に似た柔軟なスキルの移譲を示すインテリジェントなエージェントを構築することである。
本稿では,これらの目標に対処するための2つのフレームワーク – エピソード制御と後継機能 – の統合について検討する。
論文 参考訳(メタデータ) (2021-11-04T19:14:43Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。