Fugu-MT 論文翻訳(概要): AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation

論文の概要: AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation

arxiv url: http://arxiv.org/abs/2305.18898v1
Date: Tue, 30 May 2023 09:54:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 17:12:55.987124
Title: AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation
Title（参考訳）: AlphaBlock:ロボット操作における視覚言語推論のための身体的ファインタニング
Authors: Chuhao Jin, Wenhui Tan, Jiange Yang, Bei Liu, Ruihua Song, Limin Wang, Jianlong Fu
Abstract要約: 本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
参考スコア（独自算出の注目度）: 50.737355245505334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel framework for learning high-level cognitive capabilities in robot manipulation tasks, such as making a smiley face using building blocks. These tasks often involve complex multi-step reasoning, presenting significant challenges due to the limited paired data connecting human instructions (e.g., making a smiley face) and robot actions (e.g., end-effector movement). Existing approaches relieve this challenge by adopting an open-loop paradigm decomposing high-level instructions into simple sub-task plans, and executing them step-by-step using low-level control models. However, these approaches are short of instant observations in multi-step reasoning, leading to sub-optimal results. To address this issue, we propose to automatically collect a cognitive robot dataset by Large Language Models (LLMs). The resulting dataset AlphaBlock consists of 35 comprehensive high-level tasks of multi-step text plans and paired observation sequences. To enable efficient data acquisition, we employ elaborated multi-round prompt designs that effectively reduce the burden of extensive human involvement. We further propose a closed-loop multi-modal embodied planning model that autoregressively generates plans by taking image observations as input. To facilitate effective learning, we leverage MiniGPT-4 with a frozen visual encoder and LLM, and finetune additional vision adapter and Q-former to enable fine-grained spatial perception for manipulation tasks. We conduct experiments to verify the superiority over existing open and closed-loop methods, and achieve a significant increase in success rate by 21.4% and 14.5% over ChatGPT and GPT-4 based robot tasks. Real-world demos are shown in https://www.youtube.com/watch?v=ayAzID1_qQk .
Abstract（参考訳）: ビルディングブロックを用いたスマイリー顔作成などロボット操作タスクにおける高レベル認知能力学習のための新しいフレームワークを提案する。これらのタスクは複雑な多段階推論を伴い、人間の指示(例えば、笑顔の顔を作る)とロボットの動作(例えば、エンドエフェクタ運動)を繋ぐ限られたペアデータによる重大な課題を提示する。既存のアプローチは、単純なサブタスクプランに高レベルの命令を分解するオープンループパラダイムを採用し、低レベルの制御モデルを使用してステップバイステップで実行することによって、この課題を緩和する。しかし、これらのアプローチは多段階の推論における即時観測に乏しく、準最適結果をもたらす。そこで本稿では,Large Language Models (LLM) による認知ロボットデータセットの自動収集を提案する。得られたデータセットalphablockは、多段階テキストプランとペア化された観測シーケンスの35の包括的なハイレベルタスクで構成されている。効率的なデータ取得を実現するため,広範囲な人的関与の負担を効果的に軽減するマルチラウンドプロンプト設計を採用した。さらに,画像観察を入力として自己回帰的に計画を生成するクローズドループ型マルチモーダル実施計画モデルを提案する。効率的な学習を容易にするために,我々はMiniGPT-4を凍結型視覚エンコーダとLCMで利用し,さらに視覚アダプターとQフォーマを微調整することで,操作タスクの空間認識を微調整する。我々は,既存のオープンループおよびクローズドループ法よりも優れていることを検証する実験を行い,chatgptおよびgpt-4ベースのロボットタスクに対して,成功率を21.4%,14.5%向上させた。実世界のデモはhttps://www.youtube.com/watch? v=ayazid1_qqk。

関連論文リスト

REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation [2.434849352801735]
VLM(Vision-Language Models)は、ロボット操作において顕著な可能性を示す。しかし、複雑な微調整タスクを高速かつ高精度で実行する際の課題は継続する。本稿では,ロボットの高速かつ高精度かつ誤り訂正可能な微調整を可能にするプログレッシブVLM計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-07T00:55:42Z)
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文参考訳（メタデータ） (2025-02-28T17:30:39Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文参考訳（メタデータ） (2023-12-22T06:15:03Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。