論文の概要: From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.17941v1
- Date: Mon, 20 Apr 2026 08:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.762025
- Title: From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models
- Title(参考訳): 頭部からニューロンへ:マルチタスク視覚言語モデルにおける因果属性とステアリング
- Authors: Qidong Wang, Junjie Hu, Ming Jiang,
- Abstract要約: HONESは、視覚言語モデルにおけるタスク認識ニューロンの属性とステアリングのための勾配のないフレームワークである。
HONESは,タスククリティカルニューロンの同定において既存の手法よりも優れており,ステアリング後のモデル性能が向上していることを示す。
- 参考スコア(独自算出の注目度): 10.052877942432783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has increasingly explored neuron-level interpretation in vision-language models (VLMs) to identify neurons critical to final predictions. However, existing neuron analyses generally focus on single tasks, limiting the comparability of neuron importance across tasks. Moreover, ranking strategies tend to score neurons in isolation, overlooking how task-dependent information pathways shape the write-in effects of feed-forward network (FFN) neurons. This oversight can exacerbate neuron polysemanticity in multi-task settings, introducing noise into the identification and intervention of task-critical neurons. In this study, we propose HONES (Head-Oriented Neuron Explanation & Steering), a gradient-free framework for task-aware neuron attribution and steering in multi-task VLMs. HONES ranks FFN neurons by their causal write-in contributions conditioned on task-relevant attention heads, and further modulates salient neurons via lightweight scaling. Experiments on four diverse multimodal tasks and two popular VLMs show that HONES outperforms existing methods in identifying task-critical neurons and improves model performance after steering. Our source code is released at: https://github.com/petergit1/HONES.
- Abstract(参考訳): 近年、視覚言語モデル(VLM)におけるニューロンレベルの解釈を探索し、最終的な予測に不可欠なニューロンを同定する研究が増えている。
しかし、既存のニューロン分析は一般に単一タスクに焦点を合わせ、タスク間でのニューロンの重要性の相違を制限している。
さらに、ランク付け戦略は、タスク依存情報経路がフィードフォワード・ネットワーク(FFN)ニューロンの書き込み効果をいかに形成するかを見越して、神経細胞を単独でスコアする傾向にある。
この監視は、タスククリティカルニューロンの識別と介入にノイズを導入し、マルチタスク環境でニューロンの多義性を悪化させる可能性がある。
本研究では,マルチタスクVLMにおけるタスク認識型ニューロン属性とステアリングのための勾配のないフレームワークであるHONES(Head-Oriented Neuron Explanation & Steering)を提案する。
HONESは、タスク関連アテンションヘッドに条件付けられた因果書き込みによるFFNニューロンのランク付けを行い、さらに軽量なスケーリングによってサルエントニューロンを調節する。
4つの多様なマルチモーダルタスクと2つの人気のあるVLMの実験により、HONESはタスククリティカルニューロンの同定において既存の手法よりも優れており、ステアリング後のモデル性能が向上していることが示された。
ソースコードは、https://github.com/petergit1/HONES.comで公開されています。
関連論文リスト
- Identifying Good and Bad Neurons for Task-Level Controllable LLMs [43.20582224913806]
大規模言語モデルは、複数の質問応答ベンチマークで顕著な機能を示した。
大型ニューロンの基盤となる複雑なメカニズムは不透明であり、LLMの理解と操舵に重大な課題を生んでいる。
本稿では,LLMニューロン識別における機能的アンタゴニティの生物学的原理を取り入れた,タスクレベルのLLM理解フレームワークであるNeuronLLMを提案する。
論文 参考訳(メタデータ) (2026-01-08T03:24:18Z) - Deciphering Functions of Neurons in Vision-Language Models [38.978287253624565]
本研究の目的は、視覚言語モデル(VLM)の内部を探索し、個々のニューロンの機能を理解することである。
入力された視覚トークンやテキストトークンに関してニューロンの活性化を観察し、いくつかの興味深い知見を明らかにした。
我々は、GPT-4oのアシスタントを用いて、ニューロンの説明を自動化するフレームワークを構築した。
視覚ニューロンに対しては,視覚ニューロンに対する説明の信頼性を評価するためのアクティベーションシミュレータを提案する。
論文 参考訳(メタデータ) (2025-02-10T10:00:06Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。