論文の概要: Mechanisms of Object Localization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.19792v1
- Date: Tue, 19 May 2026 12:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.819041
- Title: Mechanisms of Object Localization in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける物体位置決めのメカニズム
- Authors: Timothy Schaumlöffel, Martina G. Vilas, Gemma Roig,
- Abstract要約: 視覚的言語モデル(VLM)におけるオブジェクトローカライゼーションを支援するプロセスについて検討する。
局所化は、オブジェクトの空間的範囲を定義するオブジェクト整列トークンのコンテナ化機構によって駆動される。
ごくわずかな注意のみ、分類と局所化の両方に因果効果を媒介する。
- 参考スコア(独自算出の注目度): 10.367669666212473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-grounded language models (VLMs) are highly effective in linking visual and textual information, yet they often struggle with basic classification and localization tasks. While classification mechanisms have been studied more extensively, the processes that support object localization remain poorly understood. In this work, we investigate two representative families, LLaVA-1.5 and InternVL-3.5, using a suite of mechanistic interpretability tools, including token ablations, attention knockout, and causal mediation analysis. We find that localization is driven by a containerization mechanism in which object-aligned tokens define the spatial extent of the object, while the semantic arrangement of tokens within those boundaries is largely irrelevant to the predicted box. Only a very small set of attention heads mediates the causal effect for both classification and localization, concentrating in early-mid layers for LLaVA and mid-late layers for InternVL. The two tasks share some early processing but ultimately depend on largely distinct specialized heads. Overall, we provide the first layer- and head-level account of localization in VLMs, revealing narrow computational pathways that can guide future model design and grounding objectives.
- Abstract(参考訳): ビジュアルグラウンド言語モデル(VLM)は、視覚情報とテキスト情報をリンクする上で非常に効果的であるが、基本的な分類とローカライゼーションタスクに苦慮することが多い。
分類機構はより広範囲に研究されているが、対象の局在を支持するプロセスはいまだに理解されていない。
本研究では, LLaVA-1.5 と InternVL-3.5 の2つの代表的なファミリーについて, トークンアブレーション, 注意ノックアウト, 因果媒介分析などの機械的解釈性ツール群を用いて検討した。
局所化は、オブジェクトの空間的範囲をオブジェクト整列トークンが定義するコンテナ化機構によって駆動されるが、それらの境界内でのトークンの意味的な配置は、予測ボックスとほとんど無関係である。
LLaVAの早期中間層とInternVLの中期層に集中して、非常に小さな注意のみが分類と局所化の両方に因果効果を媒介する。
2つのタスクは、初期の処理を共有しているが、究極的には、大きく異なる特別なヘッドに依存している。
全体として、我々はVLMにおけるローカライズに関する第1層と第1層の説明を提供し、将来のモデル設計と接地目的を導くための狭い計算経路を明らかにしている。
関連論文リスト
- From Human Cognition to Neural Activations: Probing the Computational Primitives of Spatial Reasoning in LLMs [2.3268065525165316]
空間知能は 基礎モデルにとって ますます重要な能力となります
空間推論ベンチマークにおける基礎モデルの性能が内部空間表現の構造化や言語モデルへの依存を反映しているかは、まだ不明である。
論文 参考訳(メタデータ) (2026-03-27T11:42:36Z) - From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。
グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。
本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文 参考訳(メタデータ) (2025-09-26T06:06:19Z) - Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning [8.42768790741139]
本稿では,クエリ隠蔽状態の分離性とアライメントという,性能を左右する2つの幾何学的要因を解析する。
従来のトークンヘッドは分離性を駆動し、誘導ヘッドとタスクベクトルはアライメントを強化する。
そこで本研究は,ICLの基盤となるメカニズムを統一的に記述し,アテンションヘッドとタスクベクトルのギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-05-24T15:42:20Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning [26.35257570870916]
Visual-Linguistic Agent (VLA)は、MLLMのリレーショナル推論強度と従来の物体検出器の正確な位置決め能力を組み合わせた協調的なフレームワークである。
VLAは空間的推論とオブジェクトローカライゼーションの両方を強化し、マルチモーダル理解における重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-15T15:02:06Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。