論文の概要: Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
- arxiv url: http://arxiv.org/abs/2606.01215v1
- Date: Sun, 31 May 2026 13:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.389431
- Title: Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
- Title(参考訳): 3次元マルチモーダルLCMへの蒸留型ニューロシンボリックプログラム
- Authors: Wentao Mo, Yang Liu,
- Abstract要約: APEIRIAはニューロシンボリックな3次元MLLMであり、シンボリック推論パターンを自然言語の連鎖でMLLMに蒸留することで2つのパラダイムを橋渡しする。
APEIRIAは従来のNS3D手法を超え、3次元空間推論データセット上で最先端の3DMLLMと一致することを示す。
- 参考スコア(独自算出の注目度): 6.684835058130833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current 3D spatial reasoning methods face a fundamental trade-off: neuro-symbolic 3D (NS3D) concept learners achieve interpretable reasoning through compositional programs but are constrained to closed-set concept vocabularies and simple programs; end-to-end 3D multi-modal LLMs (3D MLLMs) could handle complex natural language and open-vocabulary concepts but suffer from black-box reasoning without explicit spatial verification. We introduce APEIRIA, a neuro-symbolic 3D MLLM to bridge two paradigms by distilling symbolic reasoning patterns into MLLMs with natural language chain-of-thought. Our three-stage curriculum progressively builds reasoning capabilities: a) 3D perception alignment grounds object visual-geometric features to the LLM, b) CoT-SFT teaches query decomposition and stepwise verification from symbolic program traces, and c) CoT-RL extends reasoning patterns to open-set concepts and deeply nested instructions. By transferring reasoning patterns rather than concept-specific knowledge, APEIRIA preserves key NS3D virtues: transparent reasoning and modular interchangeability of planning and perception components. Evaluations on grounding, question answering, and captioning show that APEIRIA surpasses prior NS3D methods and matches state-of-the-art 3D MLLMs on 3D spatial reasoning datasets, unifying symbolic methods' systematic reasoning with MLLMs' flexibility. Code is available at https://github.com/oceanflowlab/APEIRIA.
- Abstract(参考訳): ニューロシンボリック3D(NS3D)の概念学習者は、構成プログラムを通じて解釈可能な推論を実現するが、クローズドセットの概念語彙と単純なプログラムに制約される。
APEIRIAはニューロシンボリックな3次元MLLMで、2つのパラダイムを橋渡しし、シンボリック推論パターンを自然言語チェーンでMLLMに蒸留する。
私たちの3段階のカリキュラムは、段階的に推論能力を構築します。
a) 3次元知覚アライメントは、LLMに物体の幾何学的特徴を接地する。
b)CoT-SFTは、シンボリックプログラムトレースからクエリ分解とステップワイズ検証を教え、
c) CoT-RLは推論パターンをオープンセットの概念と深くネストされた命令に拡張します。
APEIRIAは、概念固有の知識ではなく推論パターンを転送することによって、NS3Dの重要な特長を保ちます。
APEIRIAは従来のNS3D手法を超越し、3次元空間推論データセット上で最先端の3DMLLMと一致し、MLLMの柔軟性と象徴的手法の体系的推論を統一することを示した。
コードはhttps://github.com/oceanflowlab/APEIRIAで入手できる。
関連論文リスト
- Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning [16.426772665154665]
既存の多言語大言語モデル(MLLM)は3次元空間推論に苦慮している。
Egocentric Video (TRACE) は,MLLMを誘導して3D環境のテキストベース表現を生成するプロンプト手法である。
論文 参考訳(メタデータ) (2026-03-24T16:38:09Z) - Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps [77.63233146945718]
マルチビュー画像から明示的な3Dメモリを連続的に構築するフレームワークであるCog3DMapを紹介する。
本フレームワークは空間的に構造化された3次元マップ上での直接推論を可能にし,様々な空間推論ベンチマーク上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-24T10:05:32Z) - Point Cloud as a Foreign Language for Multi-modal Large Language Model [22.63554774942836]
SAGEは、トレーニング済みの3Dエンコーダに頼ることなく、生の点雲を直接処理する最初のエンドツーエンドの3D MLLMである。
提案手法では, 幾何サンプリングと近傍凝集とベクトル量子化を組み合わせた軽量な3次元トークン化器を導入し, 点雲を離散トークンに変換する。
論文 参考訳(メタデータ) (2026-03-10T04:22:40Z) - Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding [37.97359376885946]
3次元空間言語指導マスク(3D-SLIM)は,3次元シーンの空間構造に合わせて,因果マスクを適応的注意マスクに置き換える効果的なマスキング戦略である。
3D-SLIMは単純で、アーキテクチャの変更を必要とせず、余分なパラメータを追加しないが、多様な3Dシーン言語タスク間で大幅なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2025-12-02T07:22:36Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [130.40123493752816]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。