論文の概要: Synthetic Returns for Long-Term Credit Assignment
- arxiv url: http://arxiv.org/abs/2102.12425v1
- Date: Wed, 24 Feb 2021 17:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:28:02.543889
- Title: Synthetic Returns for Long-Term Credit Assignment
- Title(参考訳): 長期クレジット割り当てのための合成リターン
- Authors: David Raposo, Sam Ritter, Adam Santoro, Greg Wayne, Theophane Weber,
Matt Botvinick, Hado van Hasselt, Francis Song
- Abstract要約: エージェントが州間の関連と任意の距離の将来の報酬を学習する状態関連学習を提案します。
私たちのimpalaベースのsrエージェントがatariスキーを25倍高速で解決できることを示しました。
- 参考スコア(独自算出の注目度): 25.55079294859312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the earliest days of reinforcement learning, the workhorse method for
assigning credit to actions over time has been temporal-difference (TD)
learning, which propagates credit backward timestep-by-timestep. This approach
suffers when delays between actions and rewards are long and when intervening
unrelated events contribute variance to long-term returns. We propose
state-associative (SA) learning, where the agent learns associations between
states and arbitrarily distant future rewards, then propagates credit directly
between the two. In this work, we use SA-learning to model the contribution of
past states to the current reward. With this model we can predict each state's
contribution to the far future, a quantity we call "synthetic returns".
TD-learning can then be applied to select actions that maximize these synthetic
returns (SRs). We demonstrate the effectiveness of augmenting agents with SRs
across a range of tasks on which TD-learning alone fails. We show that the
learned SRs are interpretable: they spike for states that occur after critical
actions are taken. Finally, we show that our IMPALA-based SR agent solves Atari
Skiing -- a game with a lengthy reward delay that posed a major hurdle to
deep-RL agents -- 25 times faster than the published state-of-the-art.
- Abstract(参考訳): 強化学習の初期段階から、時間とともに行動にクレジットを割り当てるワークホースメソッドは、時間的差分学習(TD)であり、それはクレジットの後方のステップバイタイムステップを伝播させる。
このアプローチは、アクションと報酬の間の遅延が長く、無関係なイベントが長期のリターンにばらつきをもたらす場合に発生する。
そこで我々は,エージェントが国家と遠い将来の報酬の関連を任意に学習し,その間の信用を直接伝達する状態連想学習を提案する。
本研究では,過去状態の現在の報酬に対する貢献をモデル化するために,SAラーニングを用いる。
このモデルでは、各州の遠い未来への貢献を予測できます。これは「合成リターン」と呼ばれる量です。
TD学習は、これらの合成戻り値(SR)を最大化する選択アクションに適用できる。
TD学習だけで失敗するタスクの範囲でSRを用いたエージェントの増強の有効性を実証する。
学習されたSRは解釈可能であることを示し、重要なアクションが実行された後に発生する状態をスパイクする。
最後に、IMPALAベースのSRエージェントがAtari Skiingを解決したことを示します。Atari Skiingは、長い報酬遅延を持ち、ディープRLエージェントにとって大きなハードルとなりました。
関連論文リスト
- SR-Reward: Taking The Path More Traveled [8.818066308133108]
オフラインでのデモンストレーションから報酬関数を直接学習する新しい手法を提案する。
従来の逆強化学習(IRL)とは異なり,本手法は学習者の方針から報酬関数を分離する。
textitSR-Rewardと呼ばれる我々の報酬関数は、後継表現(SR)を利用して、実証ポリシーと遷移ダイナミクスの下で期待される将来の状態の訪問に基づいて状態をエンコードする。
論文 参考訳(メタデータ) (2025-01-04T16:21:10Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning [10.102447181869005]
本研究では,時間次元と空間次元の両方でクレジット代入を学習する新しい手法を提案する。
提案手法は, 時間的信用を効果的に割り当て, 最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T10:09:03Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Pairwise Weights for Temporal Credit Assignment [20.532698866345964]
州で取られた行動は、将来の報奨としてどのくらいの信用(または責任)を得るべきか?
これは強化学習(RL)における基本的な信用割当問題である
政策の通常のRLトレーニングにおいて,これらの重み関数を学習するためのメタグラディエントな手順を開発する。
私たちの経験的研究は、競合するアプローチよりも優れたパフォーマンスを達成するためのポリシーの学習中に、これらのペアウェイト関数を学習することがしばしば可能であることを示している。
論文 参考訳(メタデータ) (2021-02-09T18:06:29Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。