論文の概要: Delayed Rewards Calibration via Reward Empirical Sufficiency
- arxiv url: http://arxiv.org/abs/2102.10527v2
- Date: Tue, 23 Feb 2021 03:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 11:31:08.647334
- Title: Delayed Rewards Calibration via Reward Empirical Sufficiency
- Title(参考訳): Reward Empirical Sufficiencyによる遅延リワードキャリブレーション
- Authors: Yixuan Liu, Hu Wang, Xiaowei Wang, Xiaoyue Sun, Liuyue Jiang and
Minhui Xue
- Abstract要約: 分類の観点から着想を得た遅延報酬キャリブレーションパラダイムを提案する。
我々は、分布内の状態ベクトルがエージェントに信号を報奨する経験的な十分な分布を定義します。
純度訓練された分類器は、分布を取得し、校正された報酬を生成するように設計されている。
- 参考スコア(独自算出の注目度): 11.089718301262433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appropriate credit assignment for delay rewards is a fundamental challenge
for reinforcement learning. To tackle this problem, we introduce a delay reward
calibration paradigm inspired from a classification perspective. We hypothesize
that well-represented state vectors share similarities with each other since
they contain the same or equivalent essential information. To this end, we
define an empirical sufficient distribution, where the state vectors within the
distribution will lead agents to environmental reward signals in the consequent
steps. Therefore, a purify-trained classifier is designed to obtain the
distribution and generate the calibrated rewards. We examine the correctness of
sufficient state extraction by tracking the real-time extraction and building
different reward functions in environments. The results demonstrate that the
classifier could generate timely and accurate calibrated rewards. Moreover, the
rewards are able to make the model training process more efficient. Finally, we
identify and discuss that the sufficient states extracted by our model resonate
with the observations of humans.
- Abstract(参考訳): 遅延報酬の適切なクレジット割り当ては、強化学習の基本的な課題です。
この問題に対処するために,分類の観点から着想を得た遅延報酬校正パラダイムを提案する。
我々は、よく表現された状態ベクトルは、同一または同等の必須情報を含むので互いに類似性を持つと仮定する。
この目的のために,我々は,分布内の状態ベクトルがエージェントを連続したステップで環境報酬信号に導くような経験的十分分布を定義する。
したがって、純度訓練された分類器は、その分布を取得し、校正された報酬を生成するように設計されている。
実時間抽出を追跡し,異なる報酬関数を構築することで,十分な状態抽出の正しさを検証した。
その結果,分類器は時間的,正確な校正報酬を生成することができた。
さらに、報酬はモデルのトレーニングプロセスをより効率的にすることができる。
最後に, モデルによって抽出された十分条件が, ヒトの観察と共振することを示す。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement [42.45888600367566]
Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
論文 参考訳(メタデータ) (2023-07-13T20:20:40Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。