論文の概要: Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution
- arxiv url: http://arxiv.org/abs/2402.03771v1
- Date: Tue, 6 Feb 2024 07:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:09:24.080751
- Title: Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution
- Title(参考訳): bagged rewardからの強化学習:インスタンスレベルの報酬再分配のためのトランスフォーマーベースのアプローチ
- Authors: Yuting Tang and Xin-Qiang Cai and Yao-Xiang Ding and Qiyu Wu and
Guoqing Liu and Masashi Sugiyama
- Abstract要約: 強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
- 参考スコア(独自算出の注目度): 48.92144929307152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In reinforcement Learning (RL), an instant reward signal is generated for
each action of the agent, such that the agent learns to maximize the cumulative
reward to obtain the optimal policy. However, in many real-world applications,
the instant reward signals are not obtainable by the agent. Instead, the
learner only obtains rewards at the ends of bags, where a bag is defined as a
partial sequence of a complete trajectory. In this situation, the learner has
to face the significant difficulty of exploring the unknown instant rewards in
the bags, which could not be addressed by existing approaches, including those
trajectory-based approaches that consider only complete trajectories and ignore
the inner reward distributions. To formally study this situation, we introduce
a novel RL setting termed Reinforcement Learning from Bagged Rewards (RLBR),
where only the bagged rewards of sequences can be obtained. We provide the
theoretical study to establish the connection between RLBR and standard RL in
Markov Decision Processes (MDPs). To effectively explore the reward
distributions within the bagged rewards, we propose a Transformer-based reward
model, the Reward Bag Transformer (RBT), which uses the self-attention
mechanism for interpreting the contextual nuances and temporal dependencies
within each bag. Extensive experimental analyses demonstrate the superiority of
our method, particularly in its ability to mimic the original MDP's reward
distribution, highlighting its proficiency in contextual understanding and
adaptability to environmental dynamics.
- Abstract(参考訳): 強化学習(RL)では、エージェントの動作毎に即時報酬信号を生成し、エージェントが累積報酬を最大化して最適なポリシーを得るように学習する。
しかし、現実世界の多くのアプリケーションでは、即時報酬信号はエージェントによって取得できない。
代わりに、学習者はバッグの端でのみ報酬を受け取り、バッグは完全な軌道の部分的なシーケンスとして定義される。
この状況では、学習者はバッグ内の未知の即時報酬を探索する重大な困難に直面しなければならないが、これは既存のアプローチでは対処できない。
本稿では、この状況を正式に研究するために、RLBR(Reinforcement Learning from Bagged Rewards)と呼ばれる新しいRL設定を導入する。
本稿では,マルコフ決定過程(MDP)におけるRLBRと標準RLの関連性を確立するための理論的研究について述べる。
そこで本研究では,袋内における報酬分布を効果的に解明するために,袋内における文脈的ニュアンスや時間的依存関係を解釈するセルフアテンション機構を用いた,トランスフォーマベースの報酬モデルである報奨袋トランス(rbt)を提案する。
広汎な実験分析により,本手法の優位性,特に元のMDPの報酬分布を模倣する能力が示され,文脈的理解能力と環境力学への適応性を強調した。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。