論文の概要: GCHR : Goal-Conditioned Hindsight Regularization for Sample-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06108v1
- Date: Fri, 08 Aug 2025 08:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.135499
- Title: GCHR : Goal-Conditioned Hindsight Regularization for Sample-Efficient Reinforcement Learning
- Title(参考訳): GCHR : 効率の良い強化学習のためのゴールコンディション付き直視正規化
- Authors: Xing Lei, Wenyan Yang, Kaiqiang Ke, Shentao Yang, Xuetao Zhang, Joni Pajarinen, Donglin Wang,
- Abstract要約: 隠れゴール条件付き正規化(HGR)は、隠れゴールに基づいて行動正規化前処理を生成する手法である。
提案手法により, 外部RLアルゴリズムによる体験利用の最大化が可能となる。
- 参考スコア(独自算出の注目度): 30.750895826128644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Goal-conditioned reinforcement learning (GCRL) with sparse rewards remains a fundamental challenge in reinforcement learning. While hindsight experience replay (HER) has shown promise by relabeling collected trajectories with achieved goals, we argue that trajectory relabeling alone does not fully exploit the available experiences in off-policy GCRL methods, resulting in limited sample efficiency. In this paper, we propose Hindsight Goal-conditioned Regularization (HGR), a technique that generates action regularization priors based on hindsight goals. When combined with hindsight self-imitation regularization (HSR), our approach enables off-policy RL algorithms to maximize experience utilization. Compared to existing GCRL methods that employ HER and self-imitation techniques, our hindsight regularizations achieve substantially more efficient sample reuse and the best performances, which we empirically demonstrate on a suite of navigation and manipulation tasks.
- Abstract(参考訳): 報酬の少ないゴール条件強化学習(GCRL)は、強化学習の基本的な課題である。
後視体験リプレイ (HER) は, 収集した軌道を目標とすることで実現可能であるが, 軌道延長だけでは, 外部GCRL法で利用可能な経験を十分に活用できないため, サンプル効率が限られている。
本稿では,隠れゴール条件付き正規化(HGR)を提案する。
HSRと組み合わせることで、オフポリティクスRLアルゴリズムによる体験利用の最大化が可能となる。
HERと自己イメージ技術を用いた既存のGCRL手法と比較して、我々の近視正規化は、より効率的なサンプル再利用と最高のパフォーマンスを実現し、ナビゲーションと操作タスクのスイートを経験的に実証した。
関連論文リスト
- Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。
従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。
本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-03T12:53:41Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。
低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文 参考訳(メタデータ) (2024-04-28T12:25:09Z) - Bias Resilient Multi-Step Off-Policy Goal-Conditioned Reinforcement
Learning [6.540225358657128]
目標条件強化学習(GCRL)では、スパース報酬は重要な課題を示し、しばしば効率的な学習を妨げる。
本稿では,これらのバイアスを深く掘り下げて,これらを「シューティング」と「シフト」の2つのカテゴリに分類する。
我々は,これらのバイアスの正の面に乗じて,その欠点を最小限に抑えつつ,GCRLの高速化により大きなステップサイズを用いることが可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T11:59:03Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。