論文の概要: Vision-Language Foundation Models as Effective Robot Imitators
- arxiv url: http://arxiv.org/abs/2311.01378v1
- Date: Thu, 2 Nov 2023 16:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:50:00.317036
- Title: Vision-Language Foundation Models as Effective Robot Imitators
- Title(参考訳): 効果的なロボットイミッタとしての視覚言語基礎モデル
- Authors: Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu,
Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong
- Abstract要約: 我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
- 参考スコア(独自算出の注目度): 48.73027330407576
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress in vision language foundation models has shown their ability
to understand multimodal data and resolve complicated vision language tasks,
including robotics manipulation. We seek a straightforward way of making use of
existing vision-language models (VLMs) with simple fine-tuning on robotics
data. To this end, we derive a simple and novel vision-language manipulation
framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo.
Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step
vision-language comprehension, models sequential history information with an
explicit policy head, and is slightly fine-tuned by imitation learning only on
language-conditioned manipulation datasets. Such a decomposition provides
RoboFlamingo the flexibility for open-loop control and deployment on
low-performance platforms. By exceeding the state-of-the-art performance with a
large margin on the tested benchmark, we show RoboFlamingo can be an effective
and competitive alternative to adapt VLMs to robot control. Our extensive
experimental results also reveal several interesting conclusions regarding the
behavior of different pre-trained VLMs on manipulation tasks. We believe
RoboFlamingo has the potential to be a cost-effective and easy-to-use solution
for robotics manipulation, empowering everyone with the ability to fine-tune
their own robotics policy.
- Abstract(参考訳): 視覚言語の基礎モデルの最近の進歩は、マルチモーダルデータを理解し、ロボット操作を含む複雑な視覚言語タスクを解決する能力を示している。
我々は、ロボットデータに簡単な微調整を施した、既存の視覚言語モデル(VLM)を利用する簡単な方法を模索する。
この目的のために,オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoという,シンプルで斬新な視覚言語操作フレームワークを考案した。
以前の作品とは異なり、RoboFlamingoはシングルステップの視覚言語理解に事前訓練されたVLMを使用し、明示的なポリシーヘッドで逐次履歴情報をモデル化し、言語条件の操作データセットのみに基づいて模倣学習によって微調整されている。
このような分解によってroboflamingoは、オープンループ制御と低パフォーマンスプラットフォームへのデプロイの柔軟性を提供する。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
実験の結果,操作作業におけるVLMの動作に関する興味深い結論が得られた。
roboflamingoは、ロボティクスの操作に費用対効果があり、使いやすいソリューションになる可能性があり、誰もが自分のロボティクスポリシーを微調整できる能力があると信じている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。