論文の概要: Latent Representation Alignment for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.25740v1
- Date: Mon, 25 May 2026 11:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.850658
- Title: Latent Representation Alignment for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴールコンディション強化学習のための潜在表現アライメント
- Authors: Hyungkyu Kang, Byeongchan Kim, Min-hwan Oh,
- Abstract要約: オフライン目標条件強化学習アルゴリズムであるLatent-Aligned Value Learning (LAVL)を提案する。
OGBenchの実験は、LAVLが既存のオフラインGCRLメソッドより一貫して優れていることを示した。
LAVLは長距離タスクや軌道縫合データセットで強い性能を示す。
- 参考スコア(独自算出の注目度): 33.21859985861439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) provides a practical framework for obtaining goal-reaching policies from fixed datasets. However, learning a reliable goal-conditioned value function in long-horizon tasks remains challenging. In this paper, we identify erroneous generalization in goal-conditioned value functions as a fundamental bottleneck, and demonstrate that appropriate inductive bias in the value function is crucial for addressing the bottleneck. Building on these findings, we propose Latent-Aligned Value Learning (LAVL), an offline GCRL algorithm that integrates latent-representation-based value generalization with hierarchical planning in a unified framework. Extensive experiments on OGBench demonstrate that LAVL consistently outperforms existing offline GCRL methods, achieving the highest performance on 20 out of 22 datasets. Notably, LAVL exhibits strong performance in long-horizon tasks and trajectory stitching datasets, where prior methods suffer significant performance degradation. Our code is available at https://github.com/oh-lab/LAVL.git.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、固定データセットから目標達成ポリシーを得るための実践的なフレームワークを提供する。
しかし、長期的タスクにおける信頼性の高い目標条件付き値関数の学習は依然として困難である。
本稿では,ゴール条件付値関数の誤一般化を基本的なボトルネックとして認識し,そのボトルネックに対処するためには,値関数の帰納的バイアスが不可欠であることを実証する。
これらの知見に基づいて,潜在表現に基づく値一般化と階層的計画を統合したオフラインGCRLアルゴリズムであるLatent-Aligned Value Learning (LAVL)を提案する。
OGBenchに関する大規模な実験は、LAVLが既存のオフラインGCRLメソッドを一貫して上回り、22データセット中20の最高パフォーマンスを達成したことを示している。
特に、LAVLは長い水平タスクや軌道縫合データセットにおいて強い性能を示しており、先行する手法では性能が著しく低下する。
私たちのコードはhttps://github.com/oh-lab/LAVL.git.comで公開されています。
関連論文リスト
- ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training [15.70383059978939]
本研究では,オンライン強化学習(RL)による大規模基盤視覚アクション(VLA)システムの改善方法について検討する。
実際には、値関数は異なるデータソースから収集された軌跡断片から推定される。
VLAポストトレーニングのためのアクションレベルオフポリシー評価フレームワークであるALOEを提案する。
論文 参考訳(メタデータ) (2026-02-13T07:46:37Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [19.341894845618445]
オフライン目標条件強化学習(GCRL)は、豊富な状態行動軌跡データセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
我々は、最近提案されたオフラインGCRLベンチマークであるOGBenchから、OTAを用いて学習した高レベルポリシーが、複雑なタスクに対して高い性能を達成することを実験的に示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。