論文の概要: Brick-Composer: Using MLLMs for Assembly with Diverse Bricks
- arxiv url: http://arxiv.org/abs/2606.05445v1
- Date: Wed, 03 Jun 2026 21:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.411965
- Title: Brick-Composer: Using MLLMs for Assembly with Diverse Bricks
- Title(参考訳): Brick-Composer: 横れんがのアセンブリにMLLMを使用する
- Authors: Jiateng Liu, Bingxuan Li, Zhenhailong Wang, Rushi Wang, Kaiwen Hong, Cheng Qian, Jiayu Liu, Denghui Zhang, Katherine Driggs-Campbell, Manling Li, Heng Ji,
- Abstract要約: ブロック組立に必要な視覚的接地と空間的推論能力を有する多モーダル大言語モデル(MLLM)について検討した。
BC-Benchは,多様なブロックを持つアセンブリ上でMLLMを評価するための最初のベンチマークである。
Brick-ComposerはMLLMに3つの補完信号による組立スキルを組み込む学習フレームワークである。
- 参考スコア(独自算出の注目度): 64.5380622477211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We dream of AI agents that can read arbitrary designs and construct real-world objects from reusable building blocks. As a first step toward this vision, we study whether multimodal large language models (MLLMs) possess the visual grounding and spatial reasoning capabilities required for brick assembly. We formulate brick assembly as a sequential decision-making problem, where each step involves two subtasks: brick selection, identifying the target brick from candidate components, and brick pose estimation, predicting where and how the selected brick should be placed. To support this study, we introduce BC-Bench (Brick Construction Benchmark), the first benchmark for evaluating MLLMs on assembly with diverse bricks. Experiments show that current state-of-the-art MLLMs remain far from reliable builders, struggling with fine-grained brick selection and failing at precise pose estimation. To bridge this gap, we propose Brick-Composer, a learning framework that equips MLLMs with assembly skills through three complementary signals: Human Design Sparks, which provide affordance-rich construction demonstrations; World Feedback, which grounds predicted actions in visual and physical consequences; and Synthetic Experience, which scales learning beyond existing object designs. Brick-Composer improves brick selection accuracy by over three times, substantially reduces pose estimation errors, and raises strict step-level assembly success from less than 1% to around 15%. After training, a Qwen-3-8B can correctly compose up to 42% of the steps for a complete object, suggesting that MLLMs can acquire assembly capabilities through targeted, physically grounded learning.
- Abstract(参考訳): 私たちは、任意のデザインを読み、再利用可能なビルディングブロックから現実世界のオブジェクトを構築することができるAIエージェントを夢見ています。
このビジョンに向けた第一歩として,ブロック組立に必要な視覚的基盤と空間的推論能力を有するマルチモーダル・大規模言語モデル (MLLM) について検討する。
ブロック集合を逐次決定問題として定式化し, それぞれのステップは, ブロック選択, 対象のブロックを候補成分から識別, およびブロックポーズ推定と, 選択したブロックをどこに配置すべきか, どのように配置すべきかの2つのサブタスクを含む。
本稿では,BC-Bench (Brick Construction Benchmark) について紹介する。
実験によると、現在の最先端のMLLMは信頼性の高いビルダーから遠く離れており、きめ細かいレンガの選別に苦労し、正確なポーズ推定に失敗している。
このギャップを埋めるために、我々はBrick-Composerという機械学習フレームワークを提案し、これはMLLMに組立スキルを付与する3つの補完的な信号を通して、人間のデザイン・スパークス、視覚的および身体的結果の予測を根拠とした世界フィードバック、既存のオブジェクトデザインを超えて学習をスケールするシンセティック・エクスペリエンスである。
Brick-Composerは、ブロック選択の精度を3倍に改善し、ポーズ推定エラーを大幅に低減し、厳格なステップレベルのアセンブリ成功を1%未満から15%程度に引き上げる。
トレーニング後、Qwen-3-8Bは、完全なオブジェクトのステップの42%を正しく構成することができ、MLLMがターゲットとなる物理的基礎学習を通じてアセンブリ機能を取得することができることを示唆している。
関連論文リスト
- LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? [23.90259639381836]
LEGO-Puzzlesは、11の異なるタスクにまたがる1,100の精巧にキュレートされた視覚的質問応答(VQA)サンプルで構成されている。
最も強力なMLLMでさえ、テストケースの約半分しか答えられません。
実験の結果,GPT-4o と Gemini-2.0-Flash はこれらの命令に従う能力に制限があり,他のMLLM は入力画像を複製するか,全く無関係な出力を生成することがわかった。
論文 参考訳(メタデータ) (2025-03-25T18:21:07Z) - TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文 参考訳(メタデータ) (2024-07-22T14:05:27Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Budget-Aware Sequential Brick Assembly with Efficient Constraint Satisfaction [63.672314717599285]
レゴブロックを用いた逐次レンガ組立体の課題に対処し、3D構造を創出する。
特に、使用されるレンガの数が増えるにつれて、組み立て可能な構造物の数は指数関数的に増加する。
本稿では,U字型スパース3次元畳み込みニューラルネットワークを用いて,次のブロック位置のスコアを予測する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-03T15:35:08Z) - Brick-by-Brick: Combinatorial Construction with Deep Reinforcement
Learning [52.85981207514049]
我々は,ユニットプリミティブを逐次組み立てるビルディングエージェントを必要とする,新しい定式化,複雑な構成を導入する。
対象物を構築するために,エージェントに対して正確な情報や明示的な情報ではなく,所望の目標(すなわち2次元画像)に関する不完全な知識を提供する。
提案手法は,対象オブジェクトの1つの画像や複数ビューに条件付けされた未確認オブジェクトの構築に成功していることを示す。
論文 参考訳(メタデータ) (2021-10-29T01:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。