論文の概要: Foundation Policies with Hilbert Representations
- arxiv url: http://arxiv.org/abs/2402.15567v2
- Date: Sun, 26 May 2024 17:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:05:34.235459
- Title: Foundation Policies with Hilbert Representations
- Title(参考訳): ヒルベルト表現による基礎政策
- Authors: Seohong Park, Tobias Kreiman, Sergey Levine,
- Abstract要約: ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
- 参考スコア(独自算出の注目度): 54.44869979017766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised and self-supervised objectives, such as next token prediction, have enabled pre-training generalist models from large amounts of unlabeled data. In reinforcement learning (RL), however, finding a truly general and scalable unsupervised pre-training objective for generalist policies from offline data remains a major open question. While a number of methods have been proposed to enable generic self-supervised RL, based on principles such as goal-conditioned RL, behavioral cloning, and unsupervised skill learning, such methods remain limited in terms of either the diversity of the discovered behaviors, the need for high-quality demonstration data, or the lack of a clear adaptation mechanism for downstream tasks. In this work, we propose a novel unsupervised framework to pre-train generalist policies that capture diverse, optimal, long-horizon behaviors from unlabeled offline data such that they can be quickly adapted to any arbitrary new tasks in a zero-shot manner. Our key insight is to learn a structured representation that preserves the temporal structure of the underlying environment, and then to span this learned latent space with directional movements, which enables various zero-shot policy "prompting" schemes for downstream tasks. Through our experiments on simulated robotic locomotion and manipulation benchmarks, we show that our unsupervised policies can solve goal-conditioned and general RL tasks in a zero-shot fashion, even often outperforming prior methods designed specifically for each setting. Our code and videos are available at https://seohong.me/projects/hilp/.
- Abstract(参考訳): 次のトークン予測のような教師なしおよび自己管理の目的は、大量のラベルのないデータから事前訓練されたジェネリストモデルを可能にする。
しかし、強化学習(RL)では、オフラインデータからジェネラリストポリシーのための、真に汎用的でスケーラブルで教師なしの事前学習目標を見つけることが大きな疑問である。
目標条件付きRL、行動クローニング、教師なしスキルラーニングといった原則に基づいて、汎用的な自己教師型RLを実現する方法が提案されているが、そのような手法は、発見された行動の多様性、高品質な実演データの必要性、下流タスクへの明確な適応メカニズムの欠如のいずれかの観点から制限されている。
本研究では,ゼロショット方式で任意の新しいタスクに迅速に適応できるように,ラベル付けされていないオフラインデータから多種多様な,最適な,長い水平動作をキャプチャする一般政策を事前訓練するための,新しい教師なしフレームワークを提案する。
我々の重要な洞察は、下層の環境の時間的構造を保存する構造的表現を学習し、この学習された潜在空間を方向運動で広げることである。
ロボットのロコモーションと操作ベンチマークのシミュレーション実験を通じて、教師なしのポリシーがゴール条件付き、一般のRLタスクをゼロショットで解決できることを示した。
私たちのコードとビデオはhttps://seohong.me/projects/hilp/.com/で公開されています。
関連論文リスト
- SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - CRISP: Curriculum inducing Primitive Informed Subgoal Prediction [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。