Fugu-MT 論文翻訳(概要): Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models

論文の概要: Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models

arxiv url: http://arxiv.org/abs/2605.07148v1
Date: Fri, 08 May 2026 02:32:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.751338
Title: Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおける3次元シーントポロジーの潜在表現の発見と形成
Authors: Haoming Wang, Wei Gao,
Abstract要約: 現代の視覚言語モデル (VLM) には3次元シーンの潜在的トポロジマップが存在することを示す。この空間部分空間をクロスシーン線形特徴抽出により分離することにより,モデルの空間出力を因果的に制御するクリーン空間部分空間を抽出する。この潜在表現を数学的に形成し、シーンの3次元ガウス-核グラフのラプラシア固有写像との対応性を証明する。
参考スコア（独自算出の注目度）: 9.722829662835233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decades of cognitive science establish that humans navigate environments by forming cognitive maps, defined as allocentric and topology-preserving representations of 3D space. While modern Vision-Language Models (VLMs) demonstrate emergent spatial reasoning from 2D egocentric inputs, it remains unclear whether they construct an analogous 3D internal representation. In this paper, we demonstrate that current VLMs do possess a latent topological map of 3D scenes, but it is heavily overshadowed by non-geometric visual semantics, such as color and shape. By isolating this spatial subspace through cross-scene linear feature extraction, we extract a clean spatial subspace that causally controls the model's spatial outputs. We mathematically shape this latent representation and prove its correspondence to the Laplacian eigenmaps of the scene's 3D Gaussian-kernel graph, converging to the physical 3D space in the continuous limit. Motivated by this geometric identification, we further introduce a mathematically principled latent regularization method for VLMs, based on Dirichlet energy. Applying this single-term regularizer to a minimal 500-step supervised VLM fine-tuning (SFT) on simple synthetic data yields significant improvements on real-world spatial benchmarks, outperforming standard SFT and competitive baselines by up to 12.1\% in spatial tasks involving scene topology understanding. Source code is available at https://github.com/pittisl/vlm-latent-shaping
Abstract（参考訳）: 認知科学の数十年は、人間が3次元空間の同中心的および位相保存的表現として定義される認知地図を形成することによって環境をナビゲートすることを確立する。現代のビジョン・ランゲージモデル(VLM)は、2次元の自己中心的な入力から創発的な空間的推論を示すが、それらが類似した3次元内部表現を構築しているかどうかは不明である。本稿では,現在のVLMが3次元シーンの潜在的トポロジカルマップを持っていることを実証するが,色や形状などの幾何学的でない視覚的意味論によって重く隠蔽されている。この空間部分空間をクロスシーン線形特徴抽出により分離することにより,モデルの空間出力を因果的に制御するクリーン空間部分空間を抽出する。この潜在表現を数学的に形成し、シーンの3次元ガウス-カーネルグラフのラプラシア固有写像との対応性を証明し、連続極限の物理的3次元空間に収束する。この幾何学的同定により、我々はさらにディリクレエネルギーに基づくVLMの数学的原理に基づく潜在正則化手法を導入する。この単一項正規化器を500段階の最小教師付きVLM微調整(SFT)に簡単な合成データに適用すると、実世界の空間ベンチマーク、標準SFT、競争ベースラインを最大12.1\%向上させることができる。ソースコードはhttps://github.com/pittisl/vlm-latent-shapingで入手できる。

関連論文リスト

Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment [50.02189698630855]
本稿では,視覚モダリティのためのコンパクトかつ包括的な3Dプロキシ表現を備えたProxy3D法を提案する。提案手法は,3次元視覚的質問応答,視覚的接地,空間知能のベンチマークにおいて,競合や最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-05-08T17:50:47Z)
Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps [77.63233146945718]
マルチビュー画像から明示的な3Dメモリを連続的に構築するフレームワークであるCog3DMapを紹介する。本フレームワークは空間的に構造化された3次元マップ上での直接推論を可能にし,様々な空間推論ベンチマーク上で最先端の性能を実現する。
論文参考訳（メタデータ） (2026-03-24T10:05:32Z)
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。 GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文参考訳（メタデータ） (2026-03-19T17:59:58Z)
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。 OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文参考訳（メタデータ） (2026-03-17T03:43:37Z)
Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-02-24T18:37:34Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。