論文の概要: Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach
- arxiv url: http://arxiv.org/abs/2501.19128v1
- Date: Fri, 31 Jan 2025 13:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:04.651955
- Title: Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach
- Title(参考訳): 強化学習におけるスパース・リワードの形成--半教師付きアプローチ
- Authors: Wenyun Li, Wenjie Huang,
- Abstract要約: Atariとロボット操作による実験結果から,提案手法は報酬形成を効果的に一般化し,報酬シナリオを疎結合にすることを示した。
提案された二重エントロピーデータ拡張は、他の拡張方法よりも15.8%のスコア向上を示す。
- 参考スコア(独自算出の注目度): 2.033434950296318
- License:
- Abstract: In many real-world scenarios, reward signal for agents are exceedingly sparse, making it challenging to learn an effective reward function for reward shaping. To address this issue, our approach performs reward shaping not only by utilizing non-zero-reward transitions but also by employing the Semi-Supervised Learning (SSL) technique combined with a novel data augmentation to learn trajectory space representations from the majority of transitions, zero-reward transitions, thereby improving the efficacy of reward shaping. Experimental results in Atari and robotic manipulation demonstrate that our method effectively generalizes reward shaping to sparse reward scenarios, achieving up to four times better performance in reaching higher best scores compared to curiosity-driven methods. The proposed double entropy data augmentation enhances performance, showcasing a 15.8\% increase in best score over other augmentation methods.
- Abstract(参考訳): 多くの現実のシナリオでは、エージェントに対する報酬信号は極めて希薄であり、報酬形成のための効果的な報酬関数を学ぶことは困難である。
この問題に対処するため,本手法では,非ゼロ・リワード遷移を利用するだけでなく,新たなデータ拡張と組み合わさったセミ・スーパーバイザード・ラーニング(SSL)技術を用いて,ほとんどのトランジション,ゼロ・リワード遷移から軌道空間表現を学習し,報酬整形の有効性を向上させることで,報酬整形を行う。
Atariとロボット操作による実験結果から,提案手法は報酬形成を効率よく一般化し,好奇心駆動方式に比べて4倍高いスコアを達成できることがわかった。
提案した二重エントロピーデータ拡張により性能が向上し、他の拡張法よりも15.8倍のスコアが向上した。
関連論文リスト
- Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning [16.93475375389869]
このToddler-Inspired Reward Transitionからインスピレーションを得た私たちは,Reinforcement Learning (RL)タスクに組み込まれた場合の,さまざまな報酬遷移の影響について検討した。
エゴセントリックなナビゲーションやロボットアーム操作タスクなど、さまざまな実験を通じて、適切な報酬遷移がサンプル効率と成功率に大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-03-11T16:34:23Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense
Reward for Robotic Trajectory Planning [3.0242753679068466]
本稿では,DRLに基づくロボットマニピュレータ軌道計画の効率化を目的とした3つの報酬関数を提案する。
より合理的な軌道で学習プロセスを高速化する姿勢報酬関数を提案する。
学習過程の安定性を向上させるために,ストライド報酬関数を提案する。
論文 参考訳(メタデータ) (2020-09-25T07:36:32Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。