Fugu-MT 論文翻訳(概要): Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

論文の概要: Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

arxiv url: http://arxiv.org/abs/2603.06084v1
Date: Fri, 06 Mar 2026 09:36:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.985457
Title: Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning
Title（参考訳）: マルチモーダル行動木生成:ロボットタスク計画のための小さな視覚言語モデル
Authors: Cristiano Battistini, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci,
Abstract要約: 視覚言語モデル(VLM)は、画像キャプション、シーン理解、視覚的質問応答といった問題にうまく取り組んできた。本研究では、ロボットタスク計画のための行動木を生成するために、コンパクトでオープンソースのマルチモーダルモデルをデプロイすることで、これらの2つのアプローチを組み合わせる。
参考スコア（独自算出の注目度）: 7.142235510048155
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large and small language models have been widely used for robotic task planning. At the same time, vision-language models (VLMs) have successfully tackled problems such as image captioning, scene understanding, and visual question answering. In this work, we combine these two approaches by deploying a compact, open-source multimodal model to generate behavior trees for robotic task planning. The main obstacle to achieving this goal is the lack of an existing dataset that links visual observations and instructions to executable behavior trees. We propose a method to construct such a dataset starting from existing robotic episodes (i.e., Open X-Embodiment), in which a large model serves as a teacher in a multi-stage generation pipeline. We use this dataset to fine-tune VLMs ranging from 500M to 4B parameters via parameter-efficient fine-tuning (PEFT). The generated behavior trees, compatible with the BehaviorTree.CPP library, are evaluated both offline, using structural and lexical metrics, and online through the execution of household tasks in a state-of-the-art embodied simulator. Our results demonstrate that our fine-tuned 4B-parameter VLM approaches the performance of state-of-the-art closed-source models, achieving an 87\% success rate while requiring only a fraction of the computational resources.
Abstract（参考訳）: 大規模および小規模な言語モデルは、ロボットタスク計画に広く使用されている。同時に、視覚言語モデル(VLM)は、画像キャプション、シーン理解、視覚的質問応答といった問題に対処することに成功している。本研究では、ロボットタスク計画のための行動木を生成するために、コンパクトでオープンソースのマルチモーダルモデルをデプロイすることで、これらの2つのアプローチを組み合わせる。この目標を達成する上での大きな障害は、視覚的な観察と指示を実行可能な行動木に結びつける既存のデータセットがないことだ。本研究では,既存のロボットエピソード(Open X-Embodiment)から始まるデータセットを構築する手法を提案する。このデータセットを用いて,パラメータ効率細調整(PEFT)により,500Mから4BパラメータのVLMを微調整する。 BehaviorTree.CPPライブラリと互換性のある生成されたビヘイビアツリーは、構造的および語彙的メトリクスを使用してオフラインで評価され、最先端のエボダイドシミュレータで家庭用タスクの実行を通じてオンラインで評価される。以上の結果から,我々の微調整 4B パラメータ VLM は最先端のクローズドソースモデルの性能に近づき,計算資源のごく一部しか必要とせず,87 %の成功率を達成した。

関連論文リスト

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文参考訳（メタデータ） (2024-04-02T13:25:16Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文参考訳（メタデータ） (2020-04-08T06:18:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。