論文の概要: HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- arxiv url: http://arxiv.org/abs/2307.11949v4
- Date: Sun, 10 Mar 2024 04:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:50:25.138035
- Title: HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- Title(参考訳): HIQL: オフラインのゴールコンディションRLと遅延状態のアクション
- Authors: Seohong Park, Dibya Ghosh, Benjamin Eysenbach, Sergey Levine
- Abstract要約: オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
- 参考スコア(独自算出の注目度): 81.67963770528753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised pre-training has recently become the bedrock for computer vision
and natural language processing. In reinforcement learning (RL),
goal-conditioned RL can potentially provide an analogous self-supervised
approach for making use of large quantities of unlabeled (reward-free) data.
However, building effective algorithms for goal-conditioned RL that can learn
directly from diverse offline data is challenging, because it is hard to
accurately estimate the exact value function for faraway goals. Nonetheless,
goal-reaching problems exhibit structure, such that reaching distant goals
entails first passing through closer subgoals. This structure can be very
useful, as assessing the quality of actions for nearby goals is typically
easier than for more distant goals. Based on this idea, we propose a
hierarchical algorithm for goal-conditioned RL from offline data. Using one
action-free value function, we learn two policies that allow us to exploit this
structure: a high-level policy that treats states as actions and predicts (a
latent representation of) a subgoal and a low-level policy that predicts the
action for reaching this subgoal. Through analysis and didactic examples, we
show how this hierarchical decomposition makes our method robust to noise in
the estimated value function. We then apply our method to offline goal-reaching
benchmarks, showing that our method can solve long-horizon tasks that stymie
prior methods, can scale to high-dimensional image observations, and can
readily make use of action-free data. Our code is available at
https://seohong.me/projects/hiql/
- Abstract(参考訳): 教師なし事前学習はコンピュータビジョンと自然言語処理の基盤となっている。
強化学習(RL)において、ゴール条件付きRLは、大量のラベルなし(リワードフリー)データを利用するための類似した自己教師付きアプローチを提供する可能性がある。
しかし, 多様なオフラインデータから直接学習できるゴール条件付きRLの効率的なアルゴリズムの構築は困難であり, 遠方目標の正確な値関数を正確に推定することは困難である。
それでも、目標達成問題は、遠くの目標に達するには、まず近いサブゴールを通過する必要がある構造を示す。
この構造は非常に有用であり、近くの目標に対する行動の質を評価することは、通常より遠い目標よりも容易である。
この考えに基づき、オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
1つのアクションフリーバリュー関数を使用して、この構造を活用可能な2つのポリシーを学習する。 状態をアクションとして扱うハイレベルポリシと、このサブゴールに到達するためのアクションを予測する低レベルポリシ(潜在表現)です。
分析とディダクティックな例を通して,この階層的分解により,推定値関数の雑音に対して頑健になることを示す。
そこで,本手法をオフラインゴール取得ベンチマークに適用し,従来の手法を精査し,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に活用できることを示す。
私たちのコードはhttps://seohong.me/projects/hiql/で利用可能です。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。