論文の概要: Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2602.13865v1
- Date: Sat, 14 Feb 2026 19:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.525108
- Title: Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay
- Title(参考訳): 身近な体験リプレイによるスパースリワードにおけるオプション学習の実現
- Authors: Gabriel Romio, Mateus Begnini Melchiades, Bruno Castro da Silva, Gabriel de Oliveira Ramos,
- Abstract要約: 我々は,Handsight Experience ReplayメカニズムをOption-Criticフレームワークに統合したMOC-HERを提案する。
MOC-HERは、達成された結果から目標を緩和することにより、元のMOCにとって難易度の高いスパース報酬環境を解決できる。
以上の結果から,MOC-2HERは,MOCとMOC-HERのいずれにおいても11%未満に比べて最大90%の成功率を達成した。
- 参考スコア(独自算出の注目度): 4.687493080285017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) frameworks like Option-Critic (OC) and Multi-updates Option Critic (MOC) have introduced significant advancements in learning reusable options. However, these methods underperform in multi-goal environments with sparse rewards, where actions must be linked to temporally distant outcomes. To address this limitation, we first propose MOC-HER, which integrates the Hindsight Experience Replay (HER) mechanism into the MOC framework. By relabeling goals from achieved outcomes, MOC-HER can solve sparse reward environments that are intractable for the original MOC. However, this approach is insufficient for object manipulation tasks, where the reward depends on the object reaching the goal rather than on the agent's direct interaction. This makes it extremely difficult for HRL agents to discover how to interact with these objects. To overcome this issue, we introduce Dual Objectives Hindsight Experience Replay (2HER), a novel extension that creates two sets of virtual goals. In addition to relabeling goals based on the object's final state (standard HER), 2HER also generates goals from the agent's effector positions, rewarding the agent for both interacting with the object and completing the task. Experimental results in robotic manipulation environments show that MOC-2HER achieves success rates of up to 90%, compared to less than 11% for both MOC and MOC-HER. These results highlight the effectiveness of our dual objective relabeling strategy in sparse reward, multi-goal tasks.
- Abstract(参考訳): Option-Critic(OC)やMulti-updates Option Critic(MOC)といった階層的強化学習(HRL)フレームワークは、再利用可能な選択肢の学習において大きな進歩をもたらした。
しかし、これらの手法はスパース報酬を伴うマルチゴール環境では不十分であり、その場合、アクションは時間的に離れた結果と関連付けられなければならない。
この制限に対処するため,まずHER(Hindsight Experience Replay)機構をMOCフレームワークに統合したMOC-HERを提案する。
MOC-HERは、達成された結果から目標を緩和することにより、元のMOCにとって難易度の高いスパース報酬環境を解決できる。
しかし、このアプローチはオブジェクト操作タスクには不十分であり、報酬はエージェントの直接のインタラクションではなく、目標に達するオブジェクトに依存する。
これにより、HRLエージェントがこれらのオブジェクトと相互作用する方法を見つけるのは非常に困難である。
この問題を解決するために,2つの仮想目標を創出する新たな拡張であるDual Objectives Hindsight Experience Replay (2HER)を紹介した。
2HERは、オブジェクトの最終状態(標準HER)に基づいた目標の緩和に加えて、エージェントのエフェクタ位置から目標を生成し、オブジェクトとの相互作用とタスクの完了の両方に対してエージェントに報酬を与える。
ロボット操作環境での実験結果から、MOC-2HERは最大90%の成功率を達成したが、MOCとMOC-HERはいずれも11%未満であった。
これらの結果は、スパース報酬、マルチゴールタスクにおける二重目的達成戦略の有効性を浮き彫りにした。
関連論文リスト
- REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。