論文の概要: The Value of Reward Lookahead in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.11637v2
- Date: Fri, 11 Oct 2024 09:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:38.399535
- Title: The Value of Reward Lookahead in Reinforcement Learning
- Title(参考訳): 強化学習におけるReward Lookaheadの価値
- Authors: Nadav Merlis, Dorian Baudry, Vianney Perchet,
- Abstract要約: 競合分析のレンズを用いて,今後の報奨情報の価値を分析した。
我々は、最悪の報酬分布を特徴づけ、最悪の報酬予測の正確な比率を導出する。
本研究の結果は, 即時報酬の観察から, 相互作用開始前の報酬の観察までのスペクトルを網羅した。
- 参考スコア(独自算出の注目度): 26.319716324907198
- License:
- Abstract: In reinforcement learning (RL), agents sequentially interact with changing environments while aiming to maximize the obtained rewards. Usually, rewards are observed only after acting, and so the goal is to maximize the expected cumulative reward. Yet, in many practical settings, reward information is observed in advance -- prices are observed before performing transactions; nearby traffic information is partially known; and goals are oftentimes given to agents prior to the interaction. In this work, we aim to quantifiably analyze the value of such future reward information through the lens of competitive analysis. In particular, we measure the ratio between the value of standard RL agents and that of agents with partial future-reward lookahead. We characterize the worst-case reward distribution and derive exact ratios for the worst-case reward expectations. Surprisingly, the resulting ratios relate to known quantities in offline RL and reward-free exploration. We further provide tight bounds for the ratio given the worst-case dynamics. Our results cover the full spectrum between observing the immediate rewards before acting to observing all the rewards before the interaction starts.
- Abstract(参考訳): 強化学習(RL)では、エージェントは、得られた報酬を最大化しながら、変化する環境と順次対話する。
通常、報酬は演技後にのみ観察されるため、期待される累積報酬を最大化することが目的である。
しかし、多くの実践的な環境では、報酬情報は事前に観察され、取引を行う前に価格が観測され、近隣の交通情報が部分的に知られ、対話の前にエージェントに与えられることがしばしばある。
本研究では,競争分析のレンズを用いて,将来的な報奨情報の価値を定量的に分析することを目的とする。
特に、標準RLエージェントの値と、部分的な先向きルックアヘッドを持つエージェントの値の比率を計測する。
我々は、最悪の報酬分布を特徴づけ、最悪の報酬予測の正確な比率を導出する。
驚くべきことに、結果の比率は、オフラインのRLと無報酬探索の既知の量に関係している。
さらに、最悪のケースのダイナミクスを考えると、その比率について厳密なバウンダリを提供する。
本研究の結果は, 即時報酬の観察から, 相互作用開始前の報酬の観察までのスペクトルを網羅した。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators [5.642469620531317]
エージェントの今後の報奨推定器を修正して次のNの報奨を予測し、TRD(Temporal Reward Decomposition)と呼ぶ。
エージェントが報酬を受け取ることを期待する時期、報酬の価値、それを受け取ることに対するエージェントの自信を推定し、エージェントのアクション決定に対する入力特徴の時間的重要性を計測し、将来の報酬に対する異なるアクションの影響を予測する。
Atari環境上で訓練されたDQNエージェントを効率よく再訓練し,RTDを組み込むことで性能への影響を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2024-08-15T15:56:15Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - Symbol Guided Hindsight Priors for Reward Learning from Human
Preferences [2.512827436728378]
PRIor Over Rewards(PRIor Over Rewards, PRIOR) フレームワークを提案する。
我々は,前者の計算に抽象状態空間を用いることで,報酬学習とエージェントの性能がさらに向上することが実証された。
論文 参考訳(メタデータ) (2022-10-17T14:57:06Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。