論文の概要: Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2601.12626v1
- Date: Sun, 18 Jan 2026 23:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.70843
- Title: Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models
- Title(参考訳): 視覚言語モデルにおける時空間推論のための線形メカニズム
- Authors: Raphi Kang, Hongqiao Chen, Georgia Gkioxari, Pietro Perona,
- Abstract要約: 視覚言語モデル(VLM)のある時点で空間構造の視覚的・幾何学的・テキスト的表現を組み合わせなければならない
本稿では,VLMがオブジェクト位置をテキストのアクティベーションに線形に結合し,言語トークンによる推論を行うことにより,オブジェクト位置を符号化することを示す。
解析をビデオVLMに拡張し、類似の線形時間ID機構を同定する。
- 参考スコア(独自算出の注目度): 16.73630874846666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal reasoning is a remarkable capability of Vision Language Models (VLMs), but the underlying mechanisms of such abilities remain largely opaque. We postulate that visual/geometrical and textual representations of spatial structure must be combined at some point in VLM computations. We search for such confluence, and ask whether the identified representation can causally explain aspects of input-output model behavior through a linear model. We show empirically that VLMs encode object locations by linearly binding \textit{spatial IDs} to textual activations, then perform reasoning via language tokens. Through rigorous causal interventions we demonstrate that these IDs, which are ubiquitous across the model, can systematically mediate model beliefs at intermediate VLM layers. Additionally, we find that spatial IDs serve as a diagnostic tool for identifying limitations in existing VLMs, and as a valuable learning signal. We extend our analysis to video VLMs and identify an analogous linear temporal ID mechanism. By characterizing our proposed spatiotemporal ID mechanism, we elucidate a previously underexplored internal reasoning process in VLMs, toward improved interpretability and the principled design of more aligned and capable models. We release our code for reproducibility: https://github.com/Raphoo/linear-mech-vlms.
- Abstract(参考訳): 時空間推論は視覚言語モデル(VLM)の顕著な能力であるが、そのような能力の基盤となるメカニズムはほとんど不透明である。
空間構造の視覚的・幾何学的・テキスト的表現は、VLM計算のどこかの時点で組み合わせなければならないと仮定する。
線形モデルによる入力-出力モデル動作の側面を因果的に説明できるかどうかを問う。
VLMはテキストのアクティベーションに‘textit{spatial IDs} を線形に結合してオブジェクト位置をエンコードし、言語トークンを介して推論を行うことを実証的に示す。
厳密な因果的介入を通じて、モデル全体でユビキタスなこれらのIDは、中間VLM層におけるモデル信念を体系的に仲介できることを示した。
さらに、空間IDは既存のVLMの限界を識別するための診断ツールであり、貴重な学習信号であることがわかった。
解析をビデオVLMに拡張し、類似の線形時間ID機構を同定する。
提案する時空間ID機構を特徴付けることにより,VLMの内部推論過程を解明し,解釈可能性の向上と,より整合的で有能なモデルの原理設計を目指す。
再現性のためのコードをリリースします。
関連論文リスト
- Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions [18.455501447828343]
空間知能(SI)は視覚言語モデル(VLM)に大きく依存している
画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。
空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
論文 参考訳(メタデータ) (2026-01-07T05:13:52Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures [12.466522376751811]
超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:59:07Z) - Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。