Fugu-MT 論文翻訳(概要): Do Vision--Language Models Understand 3D Scenes or Just Catalogue Objects?

論文の概要: Do Vision--Language Models Understand 3D Scenes or Just Catalogue Objects?

arxiv url: http://arxiv.org/abs/2605.20448v1
Date: Tue, 19 May 2026 20:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.355329
Title: Do Vision--Language Models Understand 3D Scenes or Just Catalogue Objects?
Title（参考訳）: 視覚-言語モデルは3次元シーンやただのカタログオブジェクトを理解するか?
Authors: Animesh Maheshwari, Divyansh Sahu, Nishit Verma,
Abstract要約: 6フロンティアとオープンウェイトVLMは, LLM-as-judgeを伴わない18,204応答でアノテーターによって測定され, 急激な解離を示した。目に見えるレイアウトを53～97%精度で再配置し、衝突の制約にほとんど違反しないモデルは、閉塞時に6～45%、反射時に7%以下に低下する。 Qwen3-VL-8B-Thinkingのホワイトボックス解析は、視覚的統合の失敗をローカライズする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision--language models reliably name objects in a scene, but do they represent the 3D layout those objects inhabit? We introduce a 3,034-sample human-curated benchmark targeting three components of spatial understanding: depth-ordered occlusion (probed via three independent counterfactual operationalisations), optical-geometry inference over visible reflections, and volumetric rearrangement planning. Six frontier and open-weight VLMs, scored by trained annotators on 18,204 responses with no LLM-as-judge, reveal a sharp dissociation: models that plan rearrangements over visible layouts at 53--97% accuracy and rarely violate collision constraints fall to 6--45% on occlusion and below 7% on reflections. An embodied-reasoning model reproduces the same profile. White-box analysis on Qwen3-VL-8B-Thinking localises the failure to the visual-token merger: spatial information recoverable throughout the vision encoder becomes inaccessible after token compression and only stabilises again when clean post-merger activations are patched into the language decoder.
Abstract（参考訳）: 視覚言語モデルは、シーン内のオブジェクトを確実に名前付けしますが、それらのオブジェクトが居住する3Dレイアウトを表していますか? 我々は,3,034サンプルの人間計算ベンチマークを,空間的理解の3つの構成要素を対象とし,深度順のオクルージョン(3つの独立した対物的操作によって実現された),可視反射に対する光学幾何学的推論,ボリューム再構成計画を提案する。 6つのフロンティアとオープンウェイトVLMは、LLM-as-judgeなしで18,204応答でアノテータによってスコアされ、シャープな解離を明らかにしている。埋め込み推論モデルは、同じプロファイルを再生する。 Qwen3-VL-8B-Thinkingのホワイトボックス解析は、視覚的な統合の失敗をローカライズする: 視覚エンコーダを通して回復可能な空間情報は、トークン圧縮後にアクセス不能となり、クリーンなマーガー後のアクティベーションが言語デコーダにパッチされると再び安定化する。

関連論文リスト

Text-Guided 6D Object Pose Rearrangement via Closed-Loop VLM Agents [52.53348718474685]
VLM(Vision-Language Models)は、強力な視覚的推論能力を持つが、3D理解に苦慮している。この閉ループプロセスに不可欠な3つの推論時間手法を導入する。本手法は,対象物体のテキスト誘導目標6Dポーズの予測において,従来の手法を超越した手法である。
論文参考訳（メタデータ） (2026-04-10T18:06:02Z)
Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。 OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。 OCRはモデルを補完し、全体にわたって論理的にソートする。
論文参考訳（メタデータ） (2025-11-17T09:53:41Z)
Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
Evaluation of Vision-LLMs in Surveillance Video [8.750453732584491]
本稿では視覚言語モデル(VLM)の空間的推論について検討する。これは、スパース2Dビデオからダイナミックな3Dシーンを解釈する、具体的認識課題に対処する。 UCF-Crime と RWF-2000 の4つのオープンモデルについて,プロンプトおよびプライバシ保護条件下で評価した。
論文参考訳（メタデータ） (2025-10-27T10:27:02Z)
Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。 LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文参考訳（メタデータ） (2025-09-09T15:01:28Z)
Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames [17.975173937253494]
エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。 Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
論文参考訳（メタデータ） (2025-05-30T06:32:26Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。