論文の概要: Efficient Hierarchical Implicit Flow Q-learning for Offline Goal-conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.08960v1
- Date: Fri, 10 Apr 2026 05:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.691061
- Title: Efficient Hierarchical Implicit Flow Q-learning for Offline Goal-conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール条件強化学習のための効率的な階層型インシシトフローQラーニング
- Authors: Zhiqiang Dong, Teng Pang, Rongjian Xu, Guoqiang Wu,
- Abstract要約: オフラインゴール条件強化学習(オフラインゴール条件強化学習、英: offline goal-conditioned reinforcement learning、GCRL)は、ゴール条件付きポリシーを報酬のないオフラインデータから学習することを目的とした実践的な強化学習パラダイムである。
本稿では, 平均流速場を階層的ポリシーモデリングに導入する, 目標条件付き平均流路ポリシーを提案する。
提案手法は,OGBenchベンチマークにおいて,状態ベースと画素ベースの両方のタスクに対して高い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 10.729712481687628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) is a practical reinforcement learning paradigm that aims to learn goal-conditioned policies from reward-free offline data. Despite recent advances in hierarchical architectures such as HIQL, long-horizon control in offline GCRL remains challenging due to the limited expressiveness of Gaussian policies and the inability of high-level policies to generate effective subgoals. To address these limitations, we propose the goal-conditioned mean flow policy, which introduces an average velocity field into hierarchical policy modeling for offline GCRL. Specifically, the mean flow policy captures complex target distributions for both high-level and low-level policies through a learned average velocity field, enabling efficient action generation via one-step sampling. Furthermore, considering the insufficiency of goal representation, we introduce a LeJEPA loss that repels goal representation embeddings during training, thereby encouraging more discriminative representations and improving generalization. Experimental results show that our method achieves strong performance across both state-based and pixel-based tasks in the OGBench benchmark.
- Abstract(参考訳): オフライン目標条件強化学習(英: Offline goal-conditioned reinforcement learning, GCRL)は、ゴール条件付き政策を報酬のないオフラインデータから学習することを目的とした実践的な強化学習パラダイムである。
HIQLのような階層アーキテクチャの最近の進歩にもかかわらず、オフラインGCRLにおける長期水平制御は、ガウスのポリシーの表現力の制限と、効果的なサブゴールを生成するためのハイレベルなポリシーの欠如により、依然として困難である。
これらの制約に対処するため、オフラインGCRLのための階層的ポリシーモデリングに平均速度場を導入し、目標条件付き平均フローポリシーを提案する。
具体的には, 平均流量ポリシは, 学習平均速度場を通じて, 高レベルおよび低レベルポリシの複雑な目標分布を捕捉し, 一段階サンプリングによる効率的な行動生成を可能にする。
さらに、目標表現の不十分さを考慮すると、トレーニング中に目標表現の埋め込みを再現するLeJEPA損失を導入し、より差別的な表現を奨励し、一般化を改善する。
実験の結果,OGBenchベンチマークでは,状態ベースと画素ベースの両方のタスクに対して高い性能が得られた。
関連論文リスト
- Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - Data-Efficient Hierarchical Goal-Conditioned Reinforcement Learning via Normalizing Flows [0.3499870393443268]
フローベース階層型暗黙Q-ラーニング(NF-HIQL)の標準化
実数値非体積保存(RealNVP)ポリシーに対する明示的なKL分割境界を含む新しい理論的保証が導出される。
NF-HIQLは、ゴール条件付きおよび階層的なベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-11T18:54:48Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Flattening Hierarchies with Policy Bootstrapping [5.528896840956629]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [19.341894845618445]
オフライン目標条件強化学習(GCRL)は、豊富な状態行動軌跡データセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
我々は、最近提案されたオフラインGCRLベンチマークであるOGBenchから、OTAを用いて学習した高レベルポリシーが、複雑なタスクに対して高い性能を達成することを実験的に示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks [7.122367852177223]
本稿では,長期GCタスクに対処するためのオフラインGCポリシー学習フレームワークを提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
我々は,GCポリシーを多岐にわたる長期的目標に適応させる上で,GLvSAフレームワークの優位性と効率性を実証する。
論文 参考訳(メタデータ) (2024-08-21T03:05:06Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。