論文の概要: Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.22902v1
- Date: Thu, 21 May 2026 17:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.035432
- Title: Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models
- Title(参考訳): トランスコーダによる視覚・言語モデルにおける視覚的接地と幻覚の追跡
- Authors: Dimitrios Damianos, Leon Voukoutis, Georgios Skyrianos, Vassilis Katsouros, Georgios Paraskevopoulos,
- Abstract要約: 生成的視覚言語モデル(VLM)は多モーダル推論においてよく機能するが、視覚入力がテキストにどのように変換されるかは理解されていない。
我々はトランスコーダに基づく関数中心のフレームワークを採用し、レイヤワイドの因果プロキシとして機能するサブレイヤのスパース近似を採用した。
本稿では,関数中心回路の分解により,VLMにおけるマルチモーダル計算の解釈と予測が可能であることを示す。
- 参考スコア(独自算出の注目度): 7.425292797106273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Vision-Language Models (VLMs) perform well on multimodal reasoning, but how visual inputs are transformed to text remains poorly understood. Existing interpretability work on VLMs uses Sparse Autoencoders (SAEs), which decompose static residual representations and miss the functional updates that drive cross-modal interaction. We adopt a function-centric framework based on Transcoders, sparse approximations of MLP sublayers that act as a causal proxy for layer-wise computation. Applied to Gemma 3-4B-IT, the framework decomposes the model into interpretable computational pathways linking image patches to directions in token generation. Transcoder attributions produce stronger and more stable effects on visually grounded tokens under patch ablation than SAE attributions, and align better with semantically relevant image regions. A False Visual Grounding counterfactual analysis confirms that the recovered pathways are specific to vision-language interaction.Finally, we perform a structural analysis of hallucinated generations, by extracting graph-based indicators from circuit traces produced by the transcoders. A logistic classifier over these mechanistic graph features predicts hallucinations at AUC $0.68$. These results show that function-centric circuit decomposition yields interpretable and predictive accounts of multimodal computation in VLMs.
- Abstract(参考訳): 生成的視覚言語モデル(VLM)は多モーダル推論においてよく機能するが、視覚入力がテキストにどのように変換されるかは理解されていない。
既存のVLMでの解釈可能性の研究では、Sparse Autoencoders (SAE)を使用しており、静的な残留表現を分解し、モーダル間相互作用を駆動する機能更新を見逃している。
我々はトランスコーダに基づく関数中心のフレームワークを採用し、層ワイド計算の因果プロキシとして機能するMLPサブレイヤのスパース近似を採用した。
Gemma 3-4B-ITに適用されたこのフレームワークは、画像パッチとトークン生成の方向をリンクする解釈可能な計算経路にモデルを分解する。
トランスコーダ属性は、SAE属性よりもパッチアブレーションの下で視覚的に接地されたトークンに強く、より安定した効果をもたらす。
False Visual Grounding counterfactual analysis is confirmed that recovered paths are specific to vision- language interaction, we performed a structure analysis of Hallucinated generation, by extract graph-based indicators from the circuit traces by the transcoder。
これらの力学グラフ上のロジスティック分類器は、AUC$0.68$で幻覚を予測する。
これらの結果から, 関数中心回路の分解は, VLMにおける多モード計算の解釈的, 予測的結果をもたらすことがわかった。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Med-CRAFT: Automated Construction of Interpretable and Multi-Hop Video Workloads via Knowledge Graph Traversal [13.216513001286812]
textbfPipelineNameは、新しいニューロシンボリックデータエンジニアリングフレームワークである。
Med-CRAFTは生のビデオストリームから構造化されたビジュアルプリミティブを抽出し、動的時空間知識グラフにインスタンス化する。
このパイプラインをインスタンス化し、大規模な医療ビデオ推論ベンチマークであるM3-Med-Autoを生成します。
論文 参考訳(メタデータ) (2025-11-30T19:24:10Z) - Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration [2.0855516369698845]
我々は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせたハイブリッドディープラーニングフレームワークを導入する。
アーキテクチャは構造の詳細を保存するためにCNNベースのエンコーダデコーダを使用し、トランスフォーマーモジュールは自己注意を通じてグローバルな認識を高める。
提案手法は,PSNRでは32.20dB,SSIMでは0.934dB,軽量では2.83万パラメータ,平均推定時間は61msである。
論文 参考訳(メタデータ) (2025-11-08T17:48:58Z) - Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures [12.466522376751811]
超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:59:07Z) - Interpreting vision transformers via residual replacement model [8.97847158738423]
ビジョントランスフォーマー(ViT)はどのように世界を表現するのか?
本稿は、すべての層にまたがる6.6K機能の最初の体系的解析を通じて、この長年にわたる問題に対処する。
残差ストリームの解釈可能な特徴をViT計算に置き換える残差置換モデルを提案する。
論文 参考訳(メタデータ) (2025-09-22T07:00:57Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。