Fugu-MT 論文翻訳(概要): CVT-Bench: Counterfactual Viewpoint Transformations Reveal Unstable Spatial Representations in Multimodal LLMs

論文の概要: CVT-Bench: Counterfactual Viewpoint Transformations Reveal Unstable Spatial Representations in Multimodal LLMs

arxiv url: http://arxiv.org/abs/2603.21114v1
Date: Sun, 22 Mar 2026 08:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.244923
Title: CVT-Bench: Counterfactual Viewpoint Transformations Reveal Unstable Spatial Representations in Multimodal LLMs
Title（参考訳）: CVT-Bench:マルチモーダルLCMにおける非安定空間表現の現実的視点変換
Authors: Shanmukha Vellamcheti, Uday Kiran Kothapalli, Disharee Bhowmick, Sathyanarayanan N. Aakur,
Abstract要約: マルチモーダル大言語モデル(MLLM)は,単一視点空間推論タスクにおいて高い性能を達成する。逐次変換に対する視点の整合性、360サイクルの整合性、およびリレーショナル安定性を測定する。以上の結果から,単視点空間精度は空間表現の頑健さを過大評価する可能性が示唆された。
参考スコア（独自算出の注目度）: 6.486426462514857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) achieve strong performance on single-view spatial reasoning tasks, yet it remains unclear whether they maintain stable spatial state representations under counterfactual viewpoint changes. We introduce a controlled diagnostic benchmark that evaluates relational consistency under hypothetical camera orbit transformations without re-rendering images. Across 100 synthetic scenes and 6,000 relational queries, we measure viewpoint consistency, 360° cycle agreement, and relational stability over sequential transformations. Despite high single-view accuracy, state-of-the-art MLLMs exhibit systematic degradation under counterfactual viewpoint changes, with frequent violations of cycle consistency and rapid decay in relational stability. We further evaluate multiple input representations, visual input, textual bounding boxes, and structured scene graphs, and show that increasing representational structure improves stability. Our results suggest that single-view spatial accuracy overestimates the robustness of induced spatial representations and that representation structure plays a critical role in counterfactual spatial reasoning.
Abstract（参考訳）: マルチモーダル大言語モデル (MLLM) は, 単一視点空間推論タスクにおいて高い性能を発揮するが, 対実的視点変化の下で安定な空間状態表現を維持するかは定かではない。本稿では,画像の再レンダリングを伴わずに,仮想カメラ軌道変換下での相関性を評価するための制御された診断ベンチマークを提案する。 100の合成シーンと6000のリレーショナルクエリにまたがって、視点整合性、360°サイクルの整合性、およびシーケンシャルトランスフォーメーションに対するリレーショナル安定性を測定する。単一ビューの精度が高いにもかかわらず、現状のMLLMは反ファクト的な視点の変化の下で体系的な劣化を示し、サイクルの整合性やリレーショナル安定性の急激な崩壊が頻発する。さらに、複数の入力表現、視覚入力、テキスト境界ボックス、構造化されたシーングラフを評価し、表現構造の増加が安定性を向上させることを示す。以上の結果から,単視点空間精度は空間表現の頑健さを過大評価し,空間表現構造が反現実的空間推論において重要な役割を担っていることが示唆された。

関連論文リスト

Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文参考訳（メタデータ） (2026-01-31T18:12:29Z)
Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations [9.983526161001997]
最近のディープラーニングモデルは、中間表現の妥当性に関する構造的な保証なしに、ますます深度に依存している。我々は、状態空間モデルのスケール一貫性潜在力学の構造的要件を定式化することにより、この制限に対処する。我々は予測されたスケール一貫性の挙動を実証的に検証し、適応効率がアライメントされた潜在幾何学から現れることを示す。
論文参考訳（メタデータ） (2026-01-27T12:44:20Z)
From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs [57.01486941224062]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
論文参考訳（メタデータ） (2025-09-26T07:07:03Z)
Continuous Representation Methods, Theories, and Applications: An Overview and Perspectives [55.22101595974193]
近年,実世界のデータ固有の構造を特徴付ける新しいパラダイムとして,連続表現法が登場している。本総説では, 基礎関数表現, 統計モデル, テンソル関数分解, 暗黙的神経表現などの連続表現法設計, (ii) 近似誤差解析, 収束特性, 暗黙的正規化などの連続表現の理論的基礎, (iii) コンピュータビジョン, グラフィックス, バイオインフォマティクス, リモートセンシングなどの連続表現の現実的応用について述べる。
論文参考訳（メタデータ） (2025-05-21T07:50:19Z)
Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity [42.8098014428052]
ハイパースペクトル画像(HSI)の表現は、広汎な非一様性によって根本的に挑戦される。フェアネス指向のフレームワークであるFairHypを提案する。本研究は,HSIモデリングにおける構造的必要条件として公正性を再定義し,適応性,効率,忠実性のバランスをとるための新たなパラダイムを提供する。
論文参考訳（メタデータ） (2025-05-16T14:00:11Z)
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文参考訳（メタデータ） (2024-12-31T22:06:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。