論文の概要: GHIL-Glue: Hierarchical Control with Filtered Subgoal Images
- arxiv url: http://arxiv.org/abs/2410.20018v1
- Date: Sat, 26 Oct 2024 00:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:03.261128
- Title: GHIL-Glue: Hierarchical Control with Filtered Subgoal Images
- Title(参考訳): GHIL-Glue:フィルタサブゴナル画像を用いた階層制御
- Authors: Kyle B. Hatch, Ashwin Balakrishna, Oier Mees, Suraj Nair, Seohong Park, Blake Wulfe, Masha Itkina, Benjamin Eysenbach, Sergey Levine, Thomas Kollar, Benjamin Burchfiel,
- Abstract要約: Generative Hierarchical Imitation Learning-Glue (GHIL-Glue) は、言語条件のイメージやビデオ予測モデルを低レベルな目標条件のポリシーで結合するインタフェースである。
GHIL-Glueはタスクの進行に繋がらないサブゴールをフィルタリングし、有害な視覚的アーティファクトを持つ生成されたサブゴールに対するゴール条件付きポリシーの堅牢性を改善する。
我々は、GHIL-Glueが生成サブゴールを利用する複数の階層モデルに対して25%改善するシミュレーション環境と実環境の両方において、広範な実験を行った。
- 参考スコア(独自算出の注目度): 68.36060286192262
- License:
- Abstract: Image and video generative models that are pre-trained on Internet-scale data can greatly increase the generalization capacity of robot learning systems. These models can function as high-level planners, generating intermediate subgoals for low-level goal-conditioned policies to reach. However, the performance of these systems can be greatly bottlenecked by the interface between generative models and low-level controllers. For example, generative models may predict photorealistic yet physically infeasible frames that confuse low-level policies. Low-level policies may also be sensitive to subtle visual artifacts in generated goal images. This paper addresses these two facets of generalization, providing an interface to effectively "glue together" language-conditioned image or video prediction models with low-level goal-conditioned policies. Our method, Generative Hierarchical Imitation Learning-Glue (GHIL-Glue), filters out subgoals that do not lead to task progress and improves the robustness of goal-conditioned policies to generated subgoals with harmful visual artifacts. We find in extensive experiments in both simulated and real environments that GHIL-Glue achieves a 25% improvement across several hierarchical models that leverage generative subgoals, achieving a new state-of-the-art on the CALVIN simulation benchmark for policies using observations from a single RGB camera. GHIL-Glue also outperforms other generalist robot policies across 3/4 language-conditioned manipulation tasks testing zero-shot generalization in physical experiments.
- Abstract(参考訳): インターネット規模のデータに基づいて事前訓練された画像および映像生成モデルは、ロボット学習システムの一般化能力を大幅に向上させることができる。
これらのモデルはハイレベルなプランナーとして機能し、低レベルな目標条件ポリシーに到達するための中間的なサブゴールを生成する。
しかし、これらのシステムの性能は、生成モデルと低レベルコントローラのインターフェースによって大幅にボトルネック化される可能性がある。
例えば、生成モデルは、低レベルポリシーを混乱させるフォトリアリスティックだが物理的に実現不可能なフレームを予測できる。
低レベルのポリシーは、生成されたゴール画像の微妙な視覚的アーティファクトに敏感な場合もある。
本稿では、これらの2つの一般化の側面に対処し、低レベルな目標条件付きポリシーで言語条件付き画像やビデオ予測モデルを効果的に「グルー」するためのインターフェースを提供する。
GHIL-Glue (Generative Hierarchical Imitation Learning-Glue) は,タスクの進行に繋がらないサブゴールを抽出し,有害なビジュアルアーティファクトを持つ生成サブゴールに対する目標条件付きポリシーの堅牢性を向上させる。
我々は、GHIL-Glueが生成サブゴールを利用する階層モデルに対して25%の改善を実現したシミュレーション環境と実環境の両方において、CALVINシミュレーションベンチマークにおいて、単一のRGBカメラからの観測によるポリシーに対する新しい最先端性を実現するための広範な実験を行った。
GHIL-Glueは、物理実験においてゼロショットの一般化をテストする3/4言語条件の操作タスクにおいて、他のジェネラリストロボットポリシーよりも優れている。
関連論文リスト
- Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Generative-Enhanced Heterogeneous Graph Contrastive Learning [11.118517297006894]
異種グラフ(HG)は、実世界の複雑な関係をマルチタイプのノードとエッジによって効果的にモデル化することができる。
近年、自己教師型学習にインスパイアされたHGNN(Heterogeneous Graphs Neural Networks)は、下流タスクにデータ拡張とコントラッシブ・ディミネータを活用することで大きな可能性を示している。
本稿では,GHGCL(Generative-Enhanced Heterogeneous Graph Contrastive Learning)を提案する。
論文 参考訳(メタデータ) (2024-04-03T15:31:18Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Stronger Generalization Guarantees for Robot Learning by Combining
Generative Models and Real-World Data [5.935761705025763]
実世界の環境の有限データセットを活用することで、一般化保証を提供するためのフレームワークを提供する。
非線形・ハイブリッド力学とリッチ・センシング・モダリティを持つ2つのシミュレーションシステムに対するアプローチを実証する。
論文 参考訳(メタデータ) (2021-11-16T20:13:10Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。