論文の概要: Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments
- arxiv url: http://arxiv.org/abs/2107.07031v1
- Date: Wed, 14 Jul 2021 22:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:04:03.515403
- Title: Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments
- Title(参考訳): スパース・リワード環境におけるエンパワーメントが探索を駆動する可能性のある実験エビデンス
- Authors: Francesco Massari, Martin Biehl, Lisa Meeden, Ryota Kanai
- Abstract要約: エンパワーメントの原理に基づく本質的な報酬関数は、エージェントが自身のセンサーに持つ制御量に比例する報酬を割り当てる。
我々は,最近提案された内在的動機づけ剤に,「キュリオス」剤,エンパワーメント刺激剤の変種を実装した。
両エージェントのパフォーマンスを、4つのスパース報酬グリッドの世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is known to be often unsuccessful in environments
with sparse extrinsic rewards. A possible countermeasure is to endow RL agents
with an intrinsic reward function, or 'intrinsic motivation', which rewards the
agent based on certain features of the current sensor state. An intrinsic
reward function based on the principle of empowerment assigns rewards
proportional to the amount of control the agent has over its own sensors. We
implemented a variation on a recently proposed intrinsically motivated agent,
which we refer to as the 'curious' agent, and an empowerment-inspired agent.
The former leverages sensor state encoding with a variational autoencoder,
while the latter predicts the next sensor state via a variational information
bottleneck. We compared the performance of both agents to that of an advantage
actor-critic baseline in four sparse reward grid worlds. Both the empowerment
agent and its curious competitor seem to benefit to similar extents from their
intrinsic rewards. This provides some experimental support to the conjecture
that empowerment can be used to drive exploration.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、外因性報酬の少ない環境では、しばしば失敗することが知られている。
考えられる対策は、現在のセンサ状態の特定の特徴に基づいてエージェントに報奨を与える、内在的な報酬機能(インタリンシックモチベーション)をrlエージェントに与えることである。
エンパワーメントの原理に基づく内在的な報酬関数は、エージェントが自身のセンサーに対して持つ制御量に比例する報酬を割り当てる。
我々は,最近提案されている本質的動機付けエージェント(curious agent)とエンパワーメントに触発されたエージェントのバリエーションを実装した。
前者は変分オートエンコーダでセンサ状態を符号化し、後者は変分情報ボトルネックを介して次のセンサ状態を予測する。
両エージェントのパフォーマンスを,4つのスパース報酬グリッド世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較した。
エンパワーメントエージェントと、その好奇心の強い競争相手は、彼らの本質的な報酬から、同様の利益を得るようだ。
これは、エンパワーメントが探検を促進するのに使用できるという予想を実験的に支持する。
関連論文リスト
- Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators [5.642469620531317]
エージェントの今後の報奨推定器を修正して次のNの報奨を予測し、TRD(Temporal Reward Decomposition)と呼ぶ。
エージェントが報酬を受け取ることを期待する時期、報酬の価値、それを受け取ることに対するエージェントの自信を推定し、エージェントのアクション決定に対する入力特徴の時間的重要性を計測し、将来の報酬に対する異なるアクションの影響を予測する。
Atari環境上で訓練されたDQNエージェントを効率よく再訓練し,RTDを組み込むことで性能への影響を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2024-08-15T15:56:15Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。