論文の概要: Head Pursuit: Probing Attention Specialization in Multimodal Transformers
- arxiv url: http://arxiv.org/abs/2510.21518v1
- Date: Fri, 24 Oct 2025 14:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.50818
- Title: Head Pursuit: Probing Attention Specialization in Multimodal Transformers
- Title(参考訳): 頭部装具 : マルチモーダル変圧器の注意特化を探る
- Authors: Lorenzo Basile, Valentino Maiorca, Diego Doimo, Francesco Locatello, Alberto Cazzaniga,
- Abstract要約: テキスト生成モデルにおける個々の注意がどのように特定の意味的属性や視覚的属性に特化しているかを考察する。
以上の結果から, ヘッドレベルでの特殊化のパターンは, 単モードおよび多モードトランスの両方で一貫した結果が得られた。
また,本手法を用いて選択した頭部の1%を編集することで,モデル出力の目標概念を確実に抑制・強化できることがわかった。
- 参考スコア(独自算出の注目度): 32.218423952797444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language and vision-language models have shown impressive performance across a wide range of tasks, but their internal mechanisms remain only partly understood. In this work, we study how individual attention heads in text-generative models specialize in specific semantic or visual attributes. Building on an established interpretability method, we reinterpret the practice of probing intermediate activations with the final decoding layer through the lens of signal processing. This lets us analyze multiple samples in a principled way and rank attention heads based on their relevance to target concepts. Our results show consistent patterns of specialization at the head level across both unimodal and multimodal transformers. Remarkably, we find that editing as few as 1% of the heads, selected using our method, can reliably suppress or enhance targeted concepts in the model output. We validate our approach on language tasks such as question answering and toxicity mitigation, as well as vision-language tasks including image classification and captioning. Our findings highlight an interpretable and controllable structure within attention layers, offering simple tools for understanding and editing large-scale generative models.
- Abstract(参考訳): 言語モデルと視覚言語モデルでは、幅広いタスクで優れたパフォーマンスを示しているが、その内部メカニズムは部分的には理解されていない。
本研究では,テキスト生成モデルにおける個々の注意がどのように特定の意味的属性や視覚的属性に特化しているかを考察する。
確立された解釈可能性法に基づいて、信号処理のレンズを通して最終復号層と中間活性化を探索する手法を再解釈する。
これにより、複数のサンプルを原則的に分析し、ターゲット概念との関連性に基づいて注意点をランク付けすることが可能になる。
以上の結果から, ヘッドレベルの特殊化のパターンは, 単モードトランスと多モードトランスの両方で一貫した結果が得られた。
また,本手法を用いて選択した頭部の1%を編集することで,モデル出力の目標概念を確実に抑制・強化できることがわかった。
本稿では,質問応答や毒性軽減などの言語課題に対するアプローチと,画像分類やキャプションなどの視覚言語課題について検証する。
本研究は,大規模生成モデルの理解と編集を行うシンプルなツールとして,注目層内の解釈可能かつ制御可能な構造を明らかにした。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。
具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。
本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文 参考訳(メタデータ) (2025-02-16T14:51:07Z) - The Geometry of Prompting: Unveiling Distinct Mechanisms of Task Adaptation in Language Models [40.128112851978116]
本研究では,異なるプロンプト法が言語モデルにおける表現の幾何学に与える影響について検討する。
本分析では,文脈内学習における入力分布サンプルとラベル意味論の重要性を強調した。
我々の研究は、大規模言語モデルの理論的理解に寄与し、より効果的で表現を意識した促進戦略の開発の基礎となる。
論文 参考訳(メタデータ) (2025-02-11T23:09:50Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。
本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。
分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2024-12-24T02:31:24Z) - Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Attention Flows: Analyzing and Comparing Attention Mechanisms in
Language Models [5.866941279460248]
注意に基づく言語モデルにおける微調整を理解するための視覚分析手法を提案する。
私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。
論文 参考訳(メタデータ) (2020-09-03T19:56:30Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。