論文の概要: Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators
- arxiv url: http://arxiv.org/abs/2408.08230v1
- Date: Thu, 15 Aug 2024 15:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:26:45.293905
- Title: Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators
- Title(参考訳): エージェントの未来の信念を説明する : 時間分解による未来のリワード推定器
- Authors: Mark Towers, Yali Du, Christopher Freeman, Timothy J. Norman,
- Abstract要約: エージェントの今後の報奨推定器を修正して次のNの報奨を予測し、TRD(Temporal Reward Decomposition)と呼ぶ。
エージェントが報酬を受け取ることを期待する時期、報酬の価値、それを受け取ることに対するエージェントの自信を推定し、エージェントのアクション決定に対する入力特徴の時間的重要性を計測し、将来の報酬に対する異なるアクションの影響を予測する。
Atari環境上で訓練されたDQNエージェントを効率よく再訓練し,RTDを組み込むことで性能への影響を最小限に抑えることができることを示す。
- 参考スコア(独自算出の注目度): 5.642469620531317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future reward estimation is a core component of reinforcement learning agents; i.e., Q-value and state-value functions, predicting an agent's sum of future rewards. Their scalar output, however, obfuscates when or what individual future rewards an agent may expect to receive. We address this by modifying an agent's future reward estimator to predict their next N expected rewards, referred to as Temporal Reward Decomposition (TRD). This unlocks novel explanations of agent behaviour. Through TRD we can: estimate when an agent may expect to receive a reward, the value of the reward and the agent's confidence in receiving it; measure an input feature's temporal importance to the agent's action decisions; and predict the influence of different actions on future rewards. Furthermore, we show that DQN agents trained on Atari environments can be efficiently retrained to incorporate TRD with minimal impact on performance.
- Abstract(参考訳): 将来の報酬推定は、強化学習エージェントの中核的な要素、すなわちQ値と状態値関数であり、エージェントの将来の報酬の総和を予測する。
しかし、スカラーアウトプットは、エージェントがいつ、いつ、いつ、いつ、どんな未来に報いるのかを難なくする。
エージェントの今後の報酬推定器を修正して,次のNの期待報酬を予測することで,この問題に対処する。
これはエージェントの振る舞いに関する新しい説明を解き放つ。
TRDを通じて、エージェントが報酬を受け取ることを期待する時期、報酬の価値、そしてそれを受け取るエージェントの信頼度を推定し、入力特徴の時間的重要性をエージェントの行動決定に測定し、将来の報酬に対する異なるアクションの影響を予測する。
さらに、アタリ環境で訓練されたDQNエージェントを効率よく再訓練し、RDを組み込むことで性能への影響を最小限に抑えることができることを示す。
関連論文リスト
- The Value of Reward Lookahead in Reinforcement Learning [26.319716324907198]
競合分析のレンズを用いて,今後の報奨情報の価値を分析した。
我々は、最悪の報酬分布を特徴づけ、最悪の報酬予測の正確な比率を導出する。
本研究の結果は, 即時報酬の観察から, 相互作用開始前の報酬の観察までのスペクトルを網羅した。
論文 参考訳(メタデータ) (2024-03-18T10:19:52Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments [0.0]
エンパワーメントの原理に基づく本質的な報酬関数は、エージェントが自身のセンサーに持つ制御量に比例する報酬を割り当てる。
我々は,最近提案された内在的動機づけ剤に,「キュリオス」剤,エンパワーメント刺激剤の変種を実装した。
両エージェントのパフォーマンスを、4つのスパース報酬グリッドの世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較する。
論文 参考訳(メタデータ) (2021-07-14T22:52:38Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。