論文の概要: Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach
- arxiv url: http://arxiv.org/abs/2501.19128v3
- Date: Tue, 05 Aug 2025 10:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.046006
- Title: Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach
- Title(参考訳): 強化学習におけるスパース・リワードの形成--半教師付きアプローチ
- Authors: Wenyun Li, Wenjie Huang, Chen Sun,
- Abstract要約: Atariとロボット操作の実験結果から,提案手法は報酬推論における教師ありアプローチよりも優れていることが示された。
よりスパース・リワード環境では,教師付きベースラインに比べてピークスコアが最大2倍に達する。
- 参考スコア(独自算出の注目度): 7.200081267352692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world scenarios, reward signal for agents are exceedingly sparse, making it challenging to learn an effective reward function for reward shaping. To address this issue, the proposed approach in this paper performs reward shaping not only by utilizing non-zero-reward transitions but also by employing the \emph{Semi-Supervised Learning} (SSL) technique combined with a novel data augmentation to learn trajectory space representations from the majority of transitions, {i.e}., zero-reward transitions, thereby improving the efficacy of reward shaping. Experimental results in Atari and robotic manipulation demonstrate that our method outperforms supervised-based approaches in reward inference, leading to higher agent scores. Notably, in more sparse-reward environments, our method achieves up to twice the peak scores compared to supervised baselines. The proposed double entropy data augmentation enhances performance, showcasing a 15.8\% increase in best score over other augmentation methods
- Abstract(参考訳): 多くの現実のシナリオでは、エージェントに対する報酬信号は極めて希薄であり、報酬形成のための効果的な報酬関数を学ぶことは困難である。
この問題に対処するため,本稿では,非ゼロ・リワード遷移を利用するだけでなく,新たなデータ拡張と組み合わせてトラジェクティブ空間表現をほとんどの遷移から学習することで,報酬形成を行う。
その結果, 報酬形成の有効性が向上した。
Atariとロボット操作の実験結果から,提案手法は報酬推論における教師によるアプローチよりも優れており,エージェントスコアが向上することが示された。
よりスパース・リワードな環境において,本手法は教師付きベースラインに比べて最大2倍のスコアを達成できる。
提案した二重エントロピーデータ拡張により性能が向上し,他の拡張法よりも15.8倍のスコアが向上した。
関連論文リスト
- Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - ReDit: Reward Dithering for Improved LLM Policy Optimization [6.841631032347429]
DeepSeek-R1は、ルールベースの報酬システムを通じて、LLM(Large Language Model)推論機能の拡張に成功した。
報酬のハッキングを効果的に軽減する「完璧な」報酬システムであるが、そのような報酬機能はしばしば離散的である。
本稿では、単純なランダムノイズを加えることで離散的な報酬信号をディザリングするReDit(Reward Dithering)を提案する。
論文 参考訳(メタデータ) (2025-06-23T13:36:24Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning [5.242869847419834]
リワード整形(Reward shaping)は、より頻繁で情報的な報酬を提供することで、スパース逆問題に対処する強化学習の技法である。
歴史的経験から得られた成功率を形づくりの報酬として組み込んだ自己適応的かつ高効率な報酬形成機構を導入する。
提案手法は, 各種タスクにおいて, 極めて少ない報奨で検証され, サンプル効率と収束安定性の顕著な向上が示された。
論文 参考訳(メタデータ) (2024-08-06T08:22:16Z) - Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning [16.93475375389869]
このToddler-Inspired Reward Transitionからインスピレーションを得た私たちは,Reinforcement Learning (RL)タスクに組み込まれた場合の,さまざまな報酬遷移の影響について検討した。
エゴセントリックなナビゲーションやロボットアーム操作タスクなど、さまざまな実験を通じて、適切な報酬遷移がサンプル効率と成功率に大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-03-11T16:34:23Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense
Reward for Robotic Trajectory Planning [3.0242753679068466]
本稿では,DRLに基づくロボットマニピュレータ軌道計画の効率化を目的とした3つの報酬関数を提案する。
より合理的な軌道で学習プロセスを高速化する姿勢報酬関数を提案する。
学習過程の安定性を向上させるために,ストライド報酬関数を提案する。
論文 参考訳(メタデータ) (2020-09-25T07:36:32Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。