論文の概要: Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space
- arxiv url: http://arxiv.org/abs/2205.08129v2
- Date: Tue, 18 Apr 2023 07:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 19:01:20.685379
- Title: Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space
- Title(参考訳): 実践計画: 潜在空間におけるゴールの構成による効率的なオンラインファインチューニング
- Authors: Kuan Fang, Patrick Yin, Ashvin Nair, Sergey Levine
- Abstract要約: 汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
- 参考スコア(独自算出の注目度): 76.46113138484947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose robots require diverse repertoires of behaviors to complete
challenging tasks in real-world unstructured environments. To address this
issue, goal-conditioned reinforcement learning aims to acquire policies that
can reach configurable goals for a wide range of tasks on command. However,
such goal-conditioned policies are notoriously difficult and time-consuming to
train from scratch. In this paper, we propose Planning to Practice (PTP), a
method that makes it practical to train goal-conditioned policies for
long-horizon tasks that require multiple distinct types of interactions to
solve. Our approach is based on two key ideas. First, we decompose the
goal-reaching problem hierarchically, with a high-level planner that sets
intermediate subgoals using conditional subgoal generators in the latent space
for a low-level model-free policy. Second, we propose a hybrid approach which
first pre-trains both the conditional subgoal generator and the policy on
previously collected data through offline reinforcement learning, and then
fine-tunes the policy via online exploration. This fine-tuning process is
itself facilitated by the planned subgoals, which breaks down the original
target task into short-horizon goal-reaching tasks that are significantly
easier to learn. We conduct experiments in both the simulation and real world,
in which the policy is pre-trained on demonstrations of short primitive
behaviors and fine-tuned for temporally extended tasks that are unseen in the
offline data. Our experimental results show that PTP can generate feasible
sequences of subgoals that enable the policy to efficiently solve the target
tasks.
- Abstract(参考訳): 汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクに対して、設定可能な目標に到達可能なポリシーを取得することを目的としている。
しかしながら、このような目標条件付きポリシーは、スクラッチからトレーニングするのが難しく、時間がかかることで悪名高い。
本稿では,多種多様なインタラクションを必要とする長期タスクに対して,目標条件付きポリシーを実践的に訓練する手法であるプランニング・トゥ・プラクティス(PTP)を提案する。
我々のアプローチは2つの重要なアイデアに基づいている。
まず,低レベルモデルフリーポリシーのために,条件付きサブゴール生成器を用いて中間部分ゴールを設定する高レベルプランナを階層的に分解する。
第2に,条件付きサブゴールジェネレータとオフライン強化学習による事前収集データポリシーの両方を事前学習した上で,オンライン探索によるポリシーの微調整を行うハイブリッドアプローチを提案する。
この微調整プロセスは、計画されたサブゴールによって促進され、元の目標タスクを、学習が極めて容易な短期目標達成タスクに分解する。
我々はシミュレーションと実世界の両方で実験を行い、このポリシーは短い原始的行動のデモンストレーションで事前訓練され、オフラインデータには見られない時間的拡張タスクのために微調整される。
実験の結果,PTPは目標タスクを効率的に解決できるようなサブゴールの実行可能なシーケンスを生成できることが示唆された。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning [17.903462188570067]
トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
論文 参考訳(メタデータ) (2021-06-24T02:13:50Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。