論文の概要: Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps
- arxiv url: http://arxiv.org/abs/2603.23023v1
- Date: Tue, 24 Mar 2026 10:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.423918
- Title: Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps
- Title(参考訳): Cog3DMap:3次元認知マップを用いたマルチビュービジョン言語推論
- Authors: Chanyoung Gwak, Yoonwoo Jeong, Byungwoo Jeon, Hyunseok Lee, Jinwoo Shin, Minsu Cho,
- Abstract要約: マルチビュー画像から明示的な3Dメモリを連続的に構築するフレームワークであるCog3DMapを紹介する。
本フレームワークは空間的に構造化された3次元マップ上での直接推論を可能にし,様々な空間推論ベンチマーク上で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 77.63233146945718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise spatial understanding from multi-view images remains a fundamental challenge for Multimodal Large Language Models (MLLMs), as their visual representations are predominantly semantic and lack explicit geometric grounding. While existing approaches augment visual tokens with geometric cues from visual geometry models, their MLLM is still required to implicitly infer the underlying 3D structure of the scene from these augmented tokens, limiting its spatial reasoning capability. To address this issue, we introduce Cog3DMap, a framework that recurrently constructs an explicit 3D memory from multi-view images, where each token is grounded in 3D space and possesses both semantic and geometric information. By feeding these tokens into the MLLM, our framework enables direct reasoning over a spatially structured 3D map, achieving state-of-the-art performance on various spatial reasoning benchmarks. Code will be made publicly available.
- Abstract(参考訳): 多視点画像からの正確な空間的理解は、視覚的表現が主に意味論的であり、明示的な幾何学的基盤が欠如しているため、MLLM(Multimodal Large Language Models)の基本的な課題である。
既存のアプローチでは、視覚幾何学モデルからの幾何学的手がかりで視覚トークンを増大させるが、MLLMは、これらの拡張トークンからシーンの基盤となる3D構造を暗黙的に推測し、空間的推論能力を制限する必要がある。
この問題に対処するため,多視点画像から明示的な3Dメモリを連続的に構築するフレームワークであるCog3DMapを紹介した。
これらのトークンをMLLMに入力することで,空間的に構造化された3Dマップを直接推論することが可能になる。
コードは公開されます。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations [22.197086495542816]
幾何学的に参照された3次元シーン表現(GR3D)を導入する。
GR3Dは画像内のオブジェクトにユニークなIDを付加し、3Dの幾何学的属性をこれらのIDによってインデックスされたテキスト参照としてエンコードする。
この表現により、MLLMは数学的推論において高度な言語ベースのスキルを用いて3Dキューを解釈することができる。
論文 参考訳(メタデータ) (2026-03-09T16:42:43Z) - HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model [14.277165215664425]
大規模視覚言語モデル (VLM) は3次元シーン理解に大きな可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
本稿では3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
論文 参考訳(メタデータ) (2025-11-28T08:06:20Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。