論文の概要: AssemLM: Spatial Reasoning Multimodal Large Language Models for Robotic Assembly
- arxiv url: http://arxiv.org/abs/2604.08983v1
- Date: Fri, 10 Apr 2026 05:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.704074
- Title: AssemLM: Spatial Reasoning Multimodal Large Language Models for Robotic Assembly
- Title(参考訳): AssemLM:ロボット組立のための空間推論型マルチモーダル大言語モデル
- Authors: Zhi Jing, Jinbin Qiao, Ouyang Lu, Jicong Ao, Shuang Qiu, Yu-Gang Jiang, Chenjia Bai,
- Abstract要約: 本稿では,ロボット組立に適した空間多モーダル大言語モデルAssemLMを提案する。
AssemLMは、アセンブリマニュアル、ポイントクラウド、テキスト命令を統合して、タスククリティカルな6Dアセンブリのポーズを推論し予測する。
本モデルでは, 多様な組立シナリオにまたがって, 6次元モデルにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 45.963541758601274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial reasoning is a fundamental capability for embodied intelligence, especially for fine-grained manipulation tasks such as robotic assembly. While recent vision-language models (VLMs) exhibit preliminary spatial awareness, they largely rely on coarse 2D perception and lack the ability to perform accurate reasoning over 3D geometry, which is crucial for precise assembly operations. To address this limitation, we propose AssemLM, a spatial multimodal large language model tailored for robotic assembly. AssemLM integrates assembly manuals, point clouds, and textual instructions to reason about and predict task-critical 6D assembly poses, enabling explicit geometric understanding throughout the assembly process. To effectively bridge raw 3D perception and high-level reasoning, we adopt a specialized point cloud encoder to capture fine-grained geometric and rotational features, which are then integrated into the multimodal language model to support accurate 3D spatial reasoning for assembly tasks. In addition, we construct AssemBench, a large-scale dataset and benchmark for assembly-oriented spatial reasoning, comprising over 900K multimodal samples with precise 6D pose annotations. AssemBench extends spatial reasoning evaluation beyond 2D and grounding tasks into full 3D geometric inference, filling a critical gap in existing embodied AI benchmarks. Extensive experiments demonstrate that AssemLM achieves state-of-the-art performance in 6D pose reasoning across diverse assembly scenarios. Furthermore, real-robot evaluations show that our model can support fine-grained and multi-step assembly execution in real-world settings, demonstrating its potential for robotic assembly applications.
- Abstract(参考訳): 空間推論はインテリジェンスを具現化するための基本的な能力であり、特にロボット組立のようなきめ細かな操作タスクには有効である。
近年の視覚言語モデル(VLM)は空間的認識を予備的に示しているが、それらは粗い2次元知覚に依存しており、正確な組み立て操作に不可欠な3次元幾何学よりも正確な推論を行う能力が欠如している。
この制限に対処するため,ロボット組立に適した空間多モーダル大言語モデル AssemLM を提案する。
AssemLMは、アセンブリマニュアル、ポイントクラウド、テキスト命令を統合して、タスククリティカルな6Dアセンブリのポーズを推論し、予測し、アセンブリプロセス全体を通して明示的な幾何学的理解を可能にする。
生の3次元知覚と高レベル推論を効果的に橋渡しするために,我々は,精密な幾何学的特徴と回転的特徴を捉えるために,特殊な点クラウドエンコーダを採用し,それをマルチモーダル言語モデルに統合して,組立作業の正確な3次元空間的推論を支援する。
また,AssemBenchは,高精度な6次元ポーズアノテーションを持つ900万以上のマルチモーダルサンプルからなる,アセンブリ指向空間推論のための大規模データセットとベンチマークである。
AssemBenchは、空間的推論評価を2Dを超えて拡張し、タスクを完全な3D幾何学的推論に拡張し、既存の組込みAIベンチマークにおいて重要なギャップを埋める。
大規模な実験により、AssemLMは6Dで最先端のパフォーマンスを達成することが示され、様々な組立シナリオで推論される。
さらに、実ロボット評価では、ロボット組立アプリケーションの可能性を示すために、実世界の環境下での細粒度および多段階の組立実行をサポートできることが示されている。
関連論文リスト
- Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation [24.066642344610873]
既存のエンドツーエンドのロボット操作アプローチでは、限られたデータと弱い解釈性のために、見えないオブジェクトやタスクへの一般化が欠如していることが多い。
ゼロショットロボット操作のための3次元ガウス型マルチモーダル検索生成フレームワークRobMRAGを提案する。
提案手法は, 最高性能のゼロショットベースラインと比較して7.76%, 最先端の教師付きベースラインに比べて6.54%向上する。
論文 参考訳(メタデータ) (2026-02-28T06:48:05Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。