論文の概要: Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12737v2
- Date: Tue, 04 Nov 2025 02:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.246597
- Title: Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール・コンディション強化学習のためのオプション対応時間的抽象化値
- Authors: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon,
- Abstract要約: オフライン目標条件強化学習(GCRL)は、豊富な状態行動軌跡データセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
我々は、最近提案されたオフラインGCRLベンチマークであるOGBenchから、OTAを用いて学習した高レベルポリシーが、複雑なタスクに対して高い性能を達成することを実験的に示す。
- 参考スコア(独自算出の注目度): 19.341894845618445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm in which goal-reaching policies are trained from abundant state-action trajectory datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. Identifying the root cause of this challenge, we observe the following insight. Firstly, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Secondly, when learning the high-level policy in the long-horizon regime, the sign of the advantage estimate frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage estimate for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, our approach contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy learned using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、目標達成ポリシーを、追加の環境相互作用を伴わずに、豊富な状態行動軌跡データセットから訓練する実践的な学習パラダイムを提供する。
しかし、オフラインのGCRLはHIQLのような階層的なポリシー構造を採用する最近の進歩にもかかわらず、長い水平タスクに苦戦している。
この課題の根本原因を同定し、以下の知見を観察する。
第一に、パフォーマンスボトルネックは主に、適切なサブゴールを生成することができないハイレベルなポリシーに起因する。
第二に、長い水平体制で高水準政策を学ぶと、有利な見積もりの兆候が頻繁に間違っている。
したがって,高レベルの政策を学習するためには,価値関数の改善による明確な優位性推定が不可欠である。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
オプションを意識した値更新を修正することで,提案手法は有効地平線長を制約し,長期の制度においてもより有利な推定が可能となる。
OTA値関数を用いて学習した高レベルポリシーは,最近提案されたオフラインGCRLベンチマークであるOGBenchの複雑なタスクにおいて,迷路ナビゲーションや視覚ロボット操作環境を含む高いパフォーマンスを実現することを実験的に示す。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Flattening Hierarchies with Policy Bootstrapping [2.3940819037450987]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。
本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。
我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-29T03:34:53Z) - Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks [7.122367852177223]
本稿では,長期GCタスクに対処するためのオフラインGCポリシー学習フレームワークを提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
我々は,GCポリシーを多岐にわたる長期的目標に適応させる上で,GLvSAフレームワークの優位性と効率性を実証する。
論文 参考訳(メタデータ) (2024-08-21T03:05:06Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。