論文の概要: AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2305.18898v1
- Date: Tue, 30 May 2023 09:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:12:55.987124
- Title: AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation
- Title(参考訳): AlphaBlock:ロボット操作における視覚言語推論のための身体的ファインタニング
- Authors: Chuhao Jin, Wenhui Tan, Jiange Yang, Bei Liu, Ruihua Song, Limin Wang,
Jianlong Fu
- Abstract要約: 本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
- 参考スコア(独自算出の注目度): 50.737355245505334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for learning high-level cognitive capabilities
in robot manipulation tasks, such as making a smiley face using building
blocks. These tasks often involve complex multi-step reasoning, presenting
significant challenges due to the limited paired data connecting human
instructions (e.g., making a smiley face) and robot actions (e.g., end-effector
movement). Existing approaches relieve this challenge by adopting an open-loop
paradigm decomposing high-level instructions into simple sub-task plans, and
executing them step-by-step using low-level control models. However, these
approaches are short of instant observations in multi-step reasoning, leading
to sub-optimal results. To address this issue, we propose to automatically
collect a cognitive robot dataset by Large Language Models (LLMs). The
resulting dataset AlphaBlock consists of 35 comprehensive high-level tasks of
multi-step text plans and paired observation sequences. To enable efficient
data acquisition, we employ elaborated multi-round prompt designs that
effectively reduce the burden of extensive human involvement. We further
propose a closed-loop multi-modal embodied planning model that autoregressively
generates plans by taking image observations as input. To facilitate effective
learning, we leverage MiniGPT-4 with a frozen visual encoder and LLM, and
finetune additional vision adapter and Q-former to enable fine-grained spatial
perception for manipulation tasks. We conduct experiments to verify the
superiority over existing open and closed-loop methods, and achieve a
significant increase in success rate by 21.4% and 14.5% over ChatGPT and GPT-4
based robot tasks. Real-world demos are shown in
https://www.youtube.com/watch?v=ayAzID1_qQk .
- Abstract(参考訳): ビルディングブロックを用いたスマイリー顔作成などロボット操作タスクにおける高レベル認知能力学習のための新しいフレームワークを提案する。
これらのタスクは複雑な多段階推論を伴い、人間の指示(例えば、笑顔の顔を作る)とロボットの動作(例えば、エンドエフェクタ運動)を繋ぐ限られたペアデータによる重大な課題を提示する。
既存のアプローチは、単純なサブタスクプランに高レベルの命令を分解するオープンループパラダイムを採用し、低レベルの制御モデルを使用してステップバイステップで実行することによって、この課題を緩和する。
しかし、これらのアプローチは多段階の推論における即時観測に乏しく、準最適結果をもたらす。
そこで本稿では,Large Language Models (LLM) による認知ロボットデータセットの自動収集を提案する。
得られたデータセットalphablockは、多段階テキストプランとペア化された観測シーケンスの35の包括的なハイレベルタスクで構成されている。
効率的なデータ取得を実現するため,広範囲な人的関与の負担を効果的に軽減するマルチラウンドプロンプト設計を採用した。
さらに,画像観察を入力として自己回帰的に計画を生成するクローズドループ型マルチモーダル実施計画モデルを提案する。
効率的な学習を容易にするために,我々はMiniGPT-4を凍結型視覚エンコーダとLCMで利用し,さらに視覚アダプターとQフォーマを微調整することで,操作タスクの空間認識を微調整する。
我々は,既存のオープンループおよびクローズドループ法よりも優れていることを検証する実験を行い,chatgptおよびgpt-4ベースのロボットタスクに対して,成功率を21.4%,14.5%向上させた。
実世界のデモはhttps://www.youtube.com/watch?
v=ayazid1_qqk。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Safe Task Planning for Language-Instructed Multi-Robot Systems using
Conformal Prediction [13.053013407015628]
ミッション成功率の高い分散型マルチロボットプランナを新たに導入する。
これは、分布のない不確実性定量化ツールである共形予測(CP)をブラックボックスモデルで活用することで達成される。
理論的にも経験的にも,提案したプランナは,ヘルプリクエストの総数を最小限に抑えながら,ユーザ特定タスクの成功率を達成可能であることを示す。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [30.717399460407407]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation [53.468924348313664]
本論文では,SeaWaveと呼ばれる総合的かつ体系的なロボット操作ベンチマークを構築した。
マルチモーダル環境で、組み込みAIエージェントのための標準テストプラットフォームを提供する。
本研究では,DamWorldと呼ばれるクロスモーダルロボット操作に適した新しい世界モデルを提案する。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。