論文の概要: Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12737v1
- Date: Mon, 19 May 2025 05:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.428399
- Title: Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール・コンディション強化学習のためのオプション対応時間的抽象化値
- Authors: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon,
- Abstract要約: オフライン目標条件強化学習(GCRL)は、豊富なラベルなしデータセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
我々は,時間差学習プロセスに時間的抽象化を組み込んだ,OTAと呼ばれるオプション対応の時間的抽象価値学習を提案する。
OTAを用いて抽出した高レベルポリシーは,OGBenchの複雑なタスクに対して高い性能を示す。
- 参考スコア(独自算出の注目度): 15.902089688167871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm where goal-reaching policies are trained from abundant unlabeled (reward-free) datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. By identifying the root cause of this challenge, we observe the following insights: First, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Second, when learning the high-level policy in the long-horizon regime, the sign of the advantage signal frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage signal for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, the proposed learning scheme contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy extracted using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.
- Abstract(参考訳): オフラインのゴール条件強化学習 (GCRL) は、ゴール条件付きポリシーを、追加の環境相互作用なしに、豊富なラベル付き(リワードフリー)データセットからトレーニングする実践的な学習パラダイムを提供する。
しかし、オフラインのGCRLはHIQLのような階層的なポリシー構造を採用する最近の進歩にもかかわらず、長い水平タスクに苦戦している。
まず、パフォーマンスボトルネックは主に、適切なサブゴールを生成することができないハイレベルなポリシーに起因する。
第二に、長距離政権の高度政策を学ぶと、有利な信号の兆候がしばしば誤りとなる。
そこで我々は,高レベル政策を学習するための明確な有利な信号を生成するために,値関数の改善が不可欠である,と論じる。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
提案手法は,オプションに配慮した値更新を改良することにより,有効地平線長を制約し,長期の制度においてもより有利な推定が可能となる。
OTA値関数を用いて抽出した高レベルポリシは,最近提案されたオフラインGCRLベンチマークであるOGBenchの複雑なタスクにおいて,迷路ナビゲーションや視覚ロボット操作環境を含む高いパフォーマンスを実現することを実験的に示す。
関連論文リスト
- Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。
本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。
我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-29T03:34:53Z) - Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks [7.122367852177223]
本稿では,長期GCタスクに対処するためのオフラインGCポリシー学習フレームワークを提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
我々は,GCポリシーを多岐にわたる長期的目標に適応させる上で,GLvSAフレームワークの優位性と効率性を実証する。
論文 参考訳(メタデータ) (2024-08-21T03:05:06Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。