論文の概要: Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
- arxiv url: http://arxiv.org/abs/2501.04693v3
- Date: Tue, 14 Jan 2025 22:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:49:59.082081
- Title: Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
- Title(参考訳): 言葉の接地を通した不均質なセンサーを駆使したジェネリストロボット
- Authors: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine,
- Abstract要約: FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
- 参考スコア(独自算出の注目度): 85.63710017456792
- License:
- Abstract: Interacting with the world is a multi-sensory experience: achieving effective general-purpose interaction requires making use of all available modalities -- including vision, touch, and audio -- to fill in gaps from partial observation. For example, when vision is occluded reaching into a bag, a robot should rely on its senses of touch and sound. However, state-of-the-art generalist robot policies are typically trained on large datasets to predict robot actions solely from visual and proprioceptive observations. In this work, we propose FuSe, a novel approach that enables finetuning visuomotor generalist policies on heterogeneous sensor modalities for which large datasets are not readily available by leveraging natural language as a common cross-modal grounding. We combine a multimodal contrastive loss with a sensory-grounded language generation loss to encode high-level semantics. In the context of robot manipulation, we show that FuSe enables performing challenging tasks that require reasoning jointly over modalities such as vision, touch, and sound in a zero-shot setting, such as multimodal prompting, compositional cross-modal prompting, and descriptions of objects it interacts with. We show that the same recipe is applicable to widely different generalist policies, including both diffusion-based generalist policies and large vision-language-action (VLA) models. Extensive experiments in the real world show that FuSeis able to increase success rates by over 20% compared to all considered baselines.
- Abstract(参考訳): 効果的な汎用的なインタラクションを実現するには、部分的な観察からギャップを埋めるために、視覚、タッチ、オーディオを含むすべての利用可能なモダリティを使用する必要があります。
例えば、視覚がバッグに手を伸ばすとき、ロボットはその触覚と音に頼らなければならない。
しかし、現在最先端のジェネラリストロボットポリシーは、視覚的およびプロバイオセプティブな観察からのみロボット行動を予測するために、大きなデータセットで訓練されている。
本研究では, 自然言語を共通モーダルグラウンドとして活用することにより, 大規模なデータセットが容易に利用できない不均一なセンサモードに対して, 微調整型ビズモータ一般ポリシーを実現する新しいアプローチであるFuSeを提案する。
高レベルセマンティクスを符号化するために,マルチモーダル・コントラッシブ・ロスとセンセーショナル・グラウンド言語生成損失を組み合わせた。
ロボット操作の文脈において、FuSeは、マルチモーダルプロンプト、コンポジション・クロスモーダルプロンプト、そしてそれと相互作用するオブジェクトの記述などのゼロショット設定において、視覚、触覚、音といったモダリティを共同で推論することを必要とする挑戦的なタスクを実行できることを示す。
拡散に基づく一般主義政策と大規模視覚言語行動(VLA)モデルの両方を含む,広く異なる一般主義政策に適用可能であることを示す。
現実世界での大規模な実験は、FuSeisがすべての基準ラインと比較すると、成功率を20%以上向上できることを示している。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Open-World Distributed Robot Self-Localization with Transferable Visual Vocabulary and Both Absolute and Relative Features [1.3499500088995464]
本研究では,オープンワールド分散ロボットシステムのための新たな自己ローカライズフレームワークを提案する。
教師なしの視覚語彙モデルを採用し、マルチモーダルで軽量で移動可能な視覚特徴にマッピングする。
すべての機能は、軽量グラフニューラルネットワークとシーングラフを使用して学習され、認識される。
論文 参考訳(メタデータ) (2021-09-09T21:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。