論文の概要: Attention-Based Reward Shaping for Sparse and Delayed Rewards
- arxiv url: http://arxiv.org/abs/2505.10802v1
- Date: Fri, 16 May 2025 02:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.8873
- Title: Attention-Based Reward Shaping for Sparse and Delayed Rewards
- Title(参考訳): スパース・レイド・リワードのための注意に基づくリワード整形
- Authors: Ian Holmes, Min Chi,
- Abstract要約: 本研究では,アテンションに基づくリワードシェイピング(ARES)を提案する。
ARESは完全にオフラインでトレーニングでき、ランダムなアクションを取るエージェントによって生成された小さなデータセットやエピソードを使用しても意味のある形の報酬を生成することができる。
その結果、ARESは遅延した報酬設定での学習を著しく改善し、RLエージェントが非現実的な量のデータを必要とするシナリオでトレーニングしたり、さらには学習不可能なシナリオでトレーニングできることがわかった。
- 参考スコア(独自算出の注目度): 7.811459544911894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse and delayed reward functions pose a significant obstacle for real-world Reinforcement Learning (RL) applications. In this work, we propose Attention-based REward Shaping (ARES), a general and robust algorithm which uses a transformer's attention mechanism to generate shaped rewards and create a dense reward function for any environment. ARES requires a set of episodes and their final returns as input. It can be trained entirely offline and is able to generate meaningful shaped rewards even when using small datasets or episodes produced by agents taking random actions. ARES is compatible with any RL algorithm and can handle any level of reward sparsity. In our experiments, we focus on the most challenging case where rewards are fully delayed until the end of each episode. We evaluate ARES across a diverse range of environments, widely used RL algorithms, and baseline methods to assess the effectiveness of the shaped rewards it produces. Our results show that ARES can significantly improve learning in delayed reward settings, enabling RL agents to train in scenarios that would otherwise require impractical amounts of data or even be unlearnable. To our knowledge, ARES is the first approach that works fully offline, remains robust to extreme reward delays and low-quality data, and is not limited to goal-based tasks.
- Abstract(参考訳): スパースと遅延報酬関数は、実世界の強化学習(RL)アプリケーションにとって大きな障害となる。
本研究では,アテンションに基づくリワードシェーピング(ARES)を提案する。このアルゴリズムは,トランスフォーマーのアテンション機構を用いて,形状の報酬を生成し,任意の環境に対して高密度の報酬関数を生成する。
ARESは一連のエピソードと最後のリターンを入力として要求する。
完全にオフラインでトレーニングでき、ランダムなアクションを取るエージェントによって生成された小さなデータセットやエピソードを使用しても意味のある形の報酬を生成することができる。
ARESは任意のRLアルゴリズムと互換性があり、任意の報酬空間を扱うことができる。
実験では、各エピソードの終了まで報酬が完全に遅れる最も困難な事例に焦点を当てた。
我々はARESを様々な環境、広く使われているRLアルゴリズム、そしてベースライン手法で評価し、それらが生み出す形状の報酬の有効性を評価する。
その結果、ARESは遅延した報酬設定での学習を著しく改善し、RLエージェントが非現実的な量のデータを必要とするシナリオでトレーニングしたり、さらには学習不可能なシナリオでトレーニングできることがわかった。
私たちの知る限り、ARESは、完全にオフラインで動作し、極端な報酬の遅延や低品質なデータに対して堅牢であり、目標ベースのタスクに限らない最初のアプローチです。
関連論文リスト
- Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards [31.550669983576544]
報酬信号は、強化学習におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。
本稿では,トレーニング中の報酬分布と摂動を推定するための分配報酬批判フレームワークを提案する。
その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。
論文 参考訳(メタデータ) (2024-01-11T07:25:28Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。