論文の概要: LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
- arxiv url: http://arxiv.org/abs/2406.20095v1
- Date: Fri, 28 Jun 2024 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:01:13.044498
- Title: LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
- Title(参考訳): LLaRA:ビジョンランゲージ政策のためのロボット学習データのスーパーチャージ
- Authors: Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo,
- Abstract要約: 大規模言語モデル(LLM)は、広い世界知識と強力な推論スキルを備えており、ドメイン間の多様なタスクに対処することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
- 参考スコア(独自算出の注目度): 56.505551117094534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) equipped with extensive world knowledge and strong reasoning skills can tackle diverse tasks across domains, often by posing them as conversation-style instruction-response pairs. In this paper, we propose LLaRA: Large Language and Robotics Assistant, a framework which formulates robot action policy as conversations, and provides improved responses when trained with auxiliary data that complements policy learning. LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity to process state information as visual-textual prompts and generate optimal policy decisions in text. To train such action policy VLMs, we first introduce an automated pipeline to generate diverse high-quality robotics instruction data from existing behavior cloning data. A VLM finetuned with the resulting collection of datasets based on a conversation-style formulation tailored for robotics tasks, can generate meaningful robot action policy decisions. Our experiments across multiple simulated and real-world environments demonstrate the state-of-the-art performance of the proposed LLaRA framework. The code, datasets, and pretrained models are available at https://github.com/LostXine/LLaRA.
- Abstract(参考訳): LLM(Large Language Models)は、幅広い世界知識と強力な推論スキルを備えており、会話スタイルの命令応答ペアとして振る舞うことで、ドメイン間の多様なタスクに対処することができる。
本稿では,ロボット行動ポリシーを会話として定式化するフレームワークであるLLaRA: Large Language and Robotics Assistantを提案する。
視覚入力を持つLLM、すなわちビジョン言語モデル(VLM)は、状態情報を視覚的テキストプロンプトとして処理し、テキストで最適なポリシー決定を生成する能力を持つ。
このような行動ポリシーVLMをトレーニングするために,我々はまず,既存の行動クローンデータから,多様な高品質なロボットインストラクションデータを生成する自動パイプラインを導入する。
ロボットのタスクに適した会話スタイルの定式化に基づいて得られたデータセットの集合を微調整したVLMは、意味のあるロボットアクションポリシー決定を生成することができる。
提案するLLaRAフレームワークの最先端性能を実環境およびシミュレーションにより実証した。
コード、データセット、事前訓練済みのモデルはhttps://github.com/LostXine/LLaRA.comで入手できる。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。
本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。
これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文 参考訳(メタデータ) (2024-10-11T13:17:52Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。