論文の概要: Structural Graph Probing of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.27070v1
- Date: Sat, 28 Mar 2026 01:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.767833
- Title: Structural Graph Probing of Vision-Language Models
- Title(参考訳): 視覚言語モデルの構造グラフ探索
- Authors: Haoyu He, Yue Zhuo, Yu Zheng, Qi R. Wang,
- Abstract要約: 視覚言語モデル(VLM)は強力なマルチモーダル性能を実現する。
ニューロンの集団間でどのように計算が組織されるかは、いまだに理解されていない。
神経トポロジーのレンズを通してVLMを解析し、各層を層内相関グラフとして表現する。
- 参考スコア(独自算出の注目度): 9.364818672785757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) achieve strong multimodal performance, yet how computation is organized across populations of neurons remains poorly understood. In this work, we study VLMs through the lens of neural topology, representing each layer as a within-layer correlation graph derived from neuron-neuron co-activations. This view allows us to ask whether population-level structure is behaviorally meaningful, how it changes across modalities and depth, and whether it identifies causally influential internal components under intervention. We show that correlation topology carries recoverable behavioral signal; moreover, cross-modal structure progressively consolidates with depth around a compact set of recurrent hub neurons, whose targeted perturbation substantially alters model output. Neural topology thus emerges as a meaningful intermediate scale for VLM interpretability: richer than local attribution, more tractable than full circuit recovery, and empirically tied to multimodal behavior. Code is publicly available at https://github.com/he-h/vlm-graph-probing.
- Abstract(参考訳): 視覚言語モデル(VLM)は強いマルチモーダル性能を実現するが、ニューロンの集団間でどのように計算が構成されるかは理解されていない。
本研究では、神経トポロジーのレンズを通してVLMを解析し、ニューロン-ニューロン共活性化に由来する層内相関グラフとして各層を表現した。
この視点は、集団構造が行動に意味があるか、モダリティや深さによってどのように変化するか、介入中の因果的影響のある内部成分を識別するかを問うことができる。
相関トポロジーは、回復可能な行動信号を持ち、また、クロスモーダル構造は、目標摂動がモデル出力を実質的に変化させるような、連続したハブニューロンのコンパクトな集合の周囲の深さと徐々に固まることを示す。
したがって、ニューラルトポロジーはVLMの解釈可能性にとって意味のある中間尺度として現れ、局所的な帰属よりも豊かで、完全な回路回復よりもトラクタブルで、経験的にマルチモーダルな振る舞いに結びついている。
コードはhttps://github.com/he-h/vlm-graph-probingで公開されている。
関連論文リスト
- Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer [65.72553715508691]
我々は,多段階の推論と構成決定を必要とするタスクにおいて,LVLMが強いテキストのみの大規模言語モデル(LLM)に遅れていることを示す。
LLMからLVLMへ成熟型推論回路を転送するパラメータ効率の高いフレームワークである共有ニューロン低ランク融合(SNRF)を提案する。
その結果、共有ニューロンはLLMとLVLMの間の解釈可能なブリッジを形成し、低コストでマルチモーダルモデルへの推論能力の移行を可能にした。
論文 参考訳(メタデータ) (2026-02-22T06:04:05Z) - Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。
このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。
観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文 参考訳(メタデータ) (2024-10-31T18:39:41Z) - Insights on Neural Representations for End-to-End Speech Recognition [28.833851817220616]
エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,CNN,LSTM,Transformerをベースとしたトレーニングにおいて,レイヤ間の内部ダイナミクスを解析し,検討する。
論文 参考訳(メタデータ) (2022-05-19T10:19:32Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - A Graph Neural Network Framework for Causal Inference in Brain Networks [0.3392372796177108]
神経科学における中心的な問題は、脳内の自律的な動的相互作用が、比較的静的なバックボーンにどのように現れるかである。
構造解剖学的レイアウトに基づく機能的相互作用を記述するグラフニューラルネットワーク(GNN)フレームワークを提案する。
我々は,GNNがデータの長期的依存関係をキャプチャし,大規模ネットワークの解析までスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2020-10-14T15:01:21Z) - Scalable Partial Explainability in Neural Networks via Flexible
Activation Functions [13.71739091287644]
ディープニューラルネットワーク(NN)によって与えられる高次元の特徴と決定は、そのメカニズムを公開するために新しいアルゴリズムと方法を必要とする。
現在の最先端のNN解釈手法は、NN構造や操作自体よりも、NN出力と入力との直接的な関係に重点を置いている。
本稿では,スケーラブルなトポロジの下でのアクティベーション関数(AF)の役割を象徴的に説明することにより,部分的に説明可能な学習モデルを実現する。
論文 参考訳(メタデータ) (2020-06-10T20:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。