論文の概要: Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking
- arxiv url: http://arxiv.org/abs/2602.20330v1
- Date: Mon, 23 Feb 2026 20:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.51799
- Title: Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking
- Title(参考訳): 視覚言語モデルにおける回路追跡:マルチモーダル思考の内部メカニズムの理解
- Authors: Jingcheng Yang, Tianhu Xiong, Shengyi Qian, Klara Nahrstedt, Mingyuan Wu,
- Abstract要約: 視覚言語モデル(VLM)は強力だが、不透明なブラックボックスのままである。
マルチモーダル推論を体系的に解析するための,VLMにおける透過回路トレースのための最初のフレームワークを提案する。
我々は,視覚特徴回路が数学的推論を処理し,モーダルな関連性をサポートすることを明らかにした。
- 参考スコア(独自算出の注目度): 8.732123888626084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are powerful but remain opaque black boxes. We introduce the first framework for transparent circuit tracing in VLMs to systematically analyze multimodal reasoning. By utilizing transcoders, attribution graphs, and attention-based methods, we uncover how VLMs hierarchically integrate visual and semantic concepts. We reveal that distinct visual feature circuits can handle mathematical reasoning and support cross-modal associations. Validated through feature steering and circuit patching, our framework proves these circuits are causal and controllable, laying the groundwork for more explainable and reliable VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は強力だが、不透明なブラックボックスのままである。
マルチモーダル推論を体系的に解析するための,VLMにおける透過回路トレースのための最初のフレームワークを提案する。
トランスコーダ,属性グラフ,アテンションに基づく手法を用いて,VLMが階層的に視覚的・意味的概念を統合する方法を明らかにする。
我々は,視覚特徴回路が数学的推論を処理し,モーダルな関連性をサポートすることを明らかにした。
我々のフレームワークは機能ステアリングと回路パッチによって検証され、これらの回路は因果的かつ制御可能であることを証明し、より説明しやすく信頼性の高いVLMの基盤となる。
関連論文リスト
- Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings [39.4633015395276]
我々は、多モーダル推論をよりうまく扱うために、言語を超えてチェーン・オブ・シント(CoT)を拡張する方法について研究する。
テキストトークンをラテント埋め込みとして表現したコンパクトなビジュアルスケッチでインターリーブするモードミックスCoTを提案する。
我々の手法は言語のみの手法や他のCoT手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2026-01-31T07:36:38Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - From Behavioral Performance to Internal Competence: Interpreting Vision-Language Models with VLM-Lens [18.806125841573756]
VLM-Lensは、視覚言語モデルの体系的なベンチマーク、分析、解釈を可能にするように設計されている。
モデル固有の複雑さを抽象化する、統一されたYAML構成可能なインターフェースを提供する。
VLM-Lensは、VLMの理解と改善に関するコミュニティの取り組みを加速するオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2025-10-02T17:58:41Z) - MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization [52.66401137323065]
視覚言語モデル(VLM)の内部表現を可視化するMIMIC(Multimodal Inversion for Model Interpretation and Conceptualization)フレームワークを提案する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
論文 参考訳(メタデータ) (2025-08-11T10:36:58Z) - CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing [12.556435002954785]
大規模視覚モデル(LVLM)において視覚的意味論がどのように表現されるかを検討するために設計された、系統的な回路ベースのフレームワークを導入する。
本フレームワークは,視覚監査回路,セマンティック回路,アテンションフロー回路の3つの回路で構成されている。
オブジェクトとアクションの解釈可能な概念が,LVLMの中間層から後期層に出現し,洗練されていくことを確認した。
論文 参考訳(メタデータ) (2025-07-25T16:38:18Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Interleaved-Modal Chain-of-Thought [14.342351827047862]
チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。
我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。
ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
論文 参考訳(メタデータ) (2024-11-29T06:06:35Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。