論文の概要: LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
- arxiv url: http://arxiv.org/abs/2406.20095v2
- Date: Fri, 04 Oct 2024 03:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:46.904235
- Title: LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
- Title(参考訳): LLaRA:ビジョンランゲージ政策のためのロボット学習データのスーパーチャージ
- Authors: Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo,
- Abstract要約: 視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
- 参考スコア(独自算出の注目度): 56.505551117094534
- License:
- Abstract: LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity to process state information as visual-textual prompts and respond with policy decisions in text. We propose LLaRA: Large Language and Robotics Assistant, a framework that formulates robot action policy as conversations and provides improved action outputs when trained with auxiliary data that complements policy learning. We first introduce an automated pipeline to generate conversation-style instruction tuning data from existing behavior cloning data. Then we enrich the dataset in a self-supervised fashion by formulating six auxiliary tasks. A VLM finetuned with the resulting collection of datasets can generate meaningful robot action policy decisions. Our experiments across multiple simulated and real-world environments demonstrate the state-of-the-art performance of the proposed LLaRA framework. The code, datasets, and pretrained models are available at https://github.com/LostXine/LLaRA.
- Abstract(参考訳): 視覚入力を持つLLM、すなわちビジョン言語モデル(VLM)は、状態情報を視覚テキストのプロンプトとして処理し、テキストでポリシー決定に応答する能力を持つ。
LLaRA:Large Language and Robotics Assistantは、ロボットのアクションポリシーを会話として定式化し、ポリシー学習を補完する補助データを用いて訓練すると、アクションアウトプットが改善されるフレームワークである。
まず、既存の行動クローンデータから会話スタイルのチューニングデータを生成する自動パイプラインを導入する。
次に、6つの補助タスクを定式化することにより、データセットを自己教師型で強化する。
データセットの収集によって微調整されたVLMは、意味のあるロボットアクションポリシー決定を生成することができる。
提案するLLaRAフレームワークの最先端性能を実環境およびシミュレーションにより実証した。
コード、データセット、事前訓練済みのモデルはhttps://github.com/LostXine/LLaRA.comで入手できる。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。
本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。
これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文 参考訳(メタデータ) (2024-10-11T13:17:52Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。