論文の概要: Universal Visual Decomposer: Long-Horizon Manipulation Made Easy
- arxiv url: http://arxiv.org/abs/2310.08581v1
- Date: Thu, 12 Oct 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 10:32:56.051007
- Title: Universal Visual Decomposer: Long-Horizon Manipulation Made Easy
- Title(参考訳): Universal Visual Decomposer: ロングホライゾン操作が簡単
- Authors: Zichen Zhang, Yunshuang Li, Osbert Bastani, Abhishek Gupta, Dinesh
Jayaraman, Yecheng Jason Ma, Luca Weihs
- Abstract要約: 現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 54.93745986073738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world robotic tasks stretch over extended horizons and encompass
multiple stages. Learning long-horizon manipulation tasks, however, is a
long-standing challenge, and demands decomposing the overarching task into
several manageable subtasks to facilitate policy learning and generalization to
unseen tasks. Prior task decomposition methods require task-specific knowledge,
are computationally intensive, and cannot readily be applied to new tasks. To
address these shortcomings, we propose Universal Visual Decomposer (UVD), an
off-the-shelf task decomposition method for visual long horizon manipulation
using pre-trained visual representations designed for robotic control. At a
high level, UVD discovers subgoals by detecting phase shifts in the embedding
space of the pre-trained representation. Operating purely on visual
demonstrations without auxiliary information, UVD can effectively extract
visual subgoals embedded in the videos, while incurring zero additional
training cost on top of standard visuomotor policy training. Goal-conditioned
policies learned with UVD-discovered subgoals exhibit significantly improved
compositional generalization at test time to unseen tasks. Furthermore,
UVD-discovered subgoals can be used to construct goal-based reward shaping that
jump-starts temporally extended exploration for reinforcement learning. We
extensively evaluate UVD on both simulation and real-world tasks, and in all
cases, UVD substantially outperforms baselines across imitation and
reinforcement learning settings on in-domain and out-of-domain task sequences
alike, validating the clear advantage of automated visual task decomposition
within the simple, compact UVD framework.
- Abstract(参考訳): 現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
しかし、ロングホリゾン操作タスクの学習は長年の課題であり、全体的なタスクをいくつかの管理可能なサブタスクに分解し、方針学習と非認識タスクへの一般化を促進することを要求する。
事前のタスク分割手法はタスク固有の知識を必要とし、計算量が多く、新しいタスクに容易に適用できない。
そこで本研究では,ロボット制御のための事前学習された視覚表現を用いた視覚長地平線操作のためのオフラインタスク分解手法であるuniversal visual decomposer (uvd)を提案する。
高いレベルでは、UVDは事前訓練された表現の埋め込み空間における位相シフトを検出してサブゴールを発見する。
UVDは補助情報なしで純粋に視覚的なデモンストレーションを行うため、ビデオに埋め込まれた視覚的なサブゴールを効果的に抽出することができる。
UVD-Discovered subgoalsで学習したゴール条件付きポリシーは、テスト時の構成一般化を未確認タスクに改善した。
さらに、UVDで発見されたサブゴールは、ジャンプ開始が時間的に拡張された強化学習のためのゴールベースの報酬形成を構築するために使用できる。
シミュレーションと実世界のタスクの両方においてUVDを広範囲に評価し、すべての場合において、UVDは、ドメイン内およびドメイン外タスクシーケンスの模倣および強化学習設定において、ベースラインを大幅に上回っており、単純でコンパクトなUVDフレームワークにおいて、自動視覚タスク分解の明確な利点を検証している。
関連論文リスト
- Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。