論文の概要: VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement
- arxiv url: http://arxiv.org/abs/2512.22351v1
- Date: Fri, 26 Dec 2025 19:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.009957
- Title: VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement
- Title(参考訳): VULCAN: 反復的な3Dオブジェクトアレンジメントのためのツール強化マルチエージェント
- Authors: Zhengfei Kuang, Rui Lin, Long Zhao, Gordon Wetzstein, Saining Xie, Sanghyun Woo,
- Abstract要約: MLLMを用いた3次元オブジェクト配置における3つの課題に対処する。
まず、MLLMの弱い視覚的基盤に対処するために、MPPベースのAPIを導入する。
第2に、MLLMの3Dシーン理解を、特殊な視覚ツール群で強化する。
第3に,反復的かつエラーを起こしやすい更新を管理するために,協調的なマルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.13644883379087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress of Multimodal Large Language Models (MLLMs) in 2D vision-language tasks, their application to complex 3D scene manipulation remains underexplored. In this paper, we bridge this critical gap by tackling three key challenges in 3D object arrangement task using MLLMs. First, to address the weak visual grounding of MLLMs, which struggle to link programmatic edits with precise 3D outcomes, we introduce an MCP-based API. This shifts the interaction from brittle raw code manipulation to more robust, function-level updates. Second, we augment the MLLM's 3D scene understanding with a suite of specialized visual tools to analyze scene state, gather spatial information, and validate action outcomes. This perceptual feedback loop is critical for closing the gap between language-based updates and precise 3D-aware manipulation. Third, to manage the iterative, error-prone updates, we propose a collaborative multi-agent framework with designated roles for planning, execution, and verification. This decomposition allows the system to robustly handle multi-step instructions and recover from intermediate errors. We demonstrate the effectiveness of our approach on a diverse set of 25 complex object arrangement tasks, where it significantly outperforms existing baselines. Website: vulcan-3d.github.io
- Abstract(参考訳): 2次元視覚言語タスクにおけるMLLM(Multimodal Large Language Models)の顕著な進歩にもかかわらず、複雑な3Dシーン操作への応用はいまだ検討されていない。
本稿では,MLLMを用いた3次元オブジェクト配置タスクにおいて,3つの重要な課題に取り組むことで,この重要なギャップを埋める。
まず,プログラムによる編集と正確な3D結果の関連付けに苦慮するMLLMの視覚的基盤の弱さに対処するため,MPPベースのAPIを導入する。
これにより、操作が不安定な生コード操作から、より堅牢で機能レベルの更新へと移行する。
第2に、MLLMの3Dシーン理解を、シーンの状態を分析し、空間情報を収集し、アクション結果を検証するための特殊な視覚ツール群で強化する。
この知覚フィードバックループは、言語ベースの更新と正確な3D認識操作のギャップを埋めるために重要である。
第3に,反復的かつエラーを起こしやすい更新を管理するために,計画,実行,検証を行う上で,指定された役割を持つ協調型マルチエージェントフレームワークを提案する。
この分解により、システムはマルチステップ命令を堅牢に処理し、中間エラーから回復することができる。
本稿では,25種類の複雑なオブジェクト配置タスクに対して,アプローチの有効性を実証し,既存のベースラインを著しく上回る結果を得た。
ウェブサイト:vulcan-3d.github.io
関連論文リスト
- AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。
本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。
AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文 参考訳(メタデータ) (2025-11-13T06:43:00Z) - REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting [16.896443736904356]
既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
論文 参考訳(メタデータ) (2025-10-18T08:53:08Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - MLLMs Need 3D-Aware Representation Supervision for Scene Understanding [14.083262551714133]
3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。
本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
論文 参考訳(メタデータ) (2025-06-02T17:58:24Z) - Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。