論文の概要: From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers
- arxiv url: http://arxiv.org/abs/2506.17052v1
- Date: Fri, 20 Jun 2025 15:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.497327
- Title: From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers
- Title(参考訳): 概念からコンポーネントへ:トランスフォーマーにおける概念非依存モジュール発見
- Authors: Jingtong Su, Julia Kempe, Karen Ullrich,
- Abstract要約: 本稿では,任意の複雑な概念を一般変圧器モデルの特定の注意点にマッピングする概念に依存しない手法を提案する。
次に、概念の効果を減少または増幅するための単純な戦略であるScalar Attention Module Intervention (SAMI)を提案する。
以上の結果から,LLM後トレーニング前後のモジュール位置は安定であり,LLM多言語化のメカニズムに関する先行研究が確認できた。
- 参考スコア(独自算出の注目度): 6.627477206883248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved state-of-the-art performance across language and vision tasks. This success drives the imperative to interpret their internal mechanisms with the dual goals of enhancing performance and improving behavioral control. Attribution methods help advance interpretability by assigning model outputs associated with a target concept to specific model components. Current attribution research primarily studies multi-layer perceptron neurons and addresses relatively simple concepts such as factual associations (e.g., Paris is located in France). This focus tends to overlook the impact of the attention mechanism and lacks a unified approach for analyzing more complex concepts. To fill these gaps, we introduce Scalable Attention Module Discovery (SAMD), a concept-agnostic method for mapping arbitrary, complex concepts to specific attention heads of general transformer models. We accomplish this by representing each concept as a vector, calculating its cosine similarity with each attention head, and selecting the TopK-scoring heads to construct the concept-associated attention module. We then propose Scalar Attention Module Intervention (SAMI), a simple strategy to diminish or amplify the effects of a concept by adjusting the attention module using only a single scalar parameter. Empirically, we demonstrate SAMD on concepts of varying complexity, and visualize the locations of their corresponding modules. Our results demonstrate that module locations remain stable before and after LLM post-training, and confirm prior work on the mechanics of LLM multilingualism. Through SAMI, we facilitate jailbreaking on HarmBench (+72.7%) by diminishing "safety" and improve performance on the GSM8K benchmark (+1.6%) by amplifying "reasoning". Lastly, we highlight the domain-agnostic nature of our approach by suppressing the image classification accuracy of vision transformers on ImageNet.
- Abstract(参考訳): トランスフォーマーは言語や視覚タスクで最先端のパフォーマンスを達成した。
この成功は、パフォーマンスの向上と行動制御の改善という2つの目標によって、内部メカニズムの解釈を強制的に促す。
属性メソッドは、ターゲット概念に関連するモデル出力を特定のモデルコンポーネントに割り当てることによって、解釈可能性を向上させる。
現在の属性研究は、主に多層パーセプトロンニューロンを研究し、ファクトアソシエーション(例えばパリはフランスにある)のような比較的単純な概念に対処している。
この焦点は注意機構の影響を見逃しがちであり、より複雑な概念を解析するための統一的なアプローチが欠如している。
これらのギャップを埋めるために、任意の複雑な概念を一般的なトランスフォーマーモデルの特定の注意点にマッピングする概念に依存しない、スケーラブル・アテンション・モジュール発見(SAMD)を導入する。
そこで我々は,各概念をベクトルとして表現し,そのコサイン類似性を各アテンションヘッドと計算し,概念関連アテンションモジュールを構築するためにTopK-scoringヘッドを選択する。
次に,SAMI(Scalar Attention Module Intervention)を提案する。これは,単一のスカラーパラメータのみを使用してアテンションモジュールを調整することで,概念の効果を減らし,増幅するためのシンプルな戦略である。
経験的に,様々な複雑性の概念についてSAMDを実証し,対応するモジュールの位置を可視化する。
以上の結果から,LLM後トレーニング前後のモジュール位置は安定であり,LLM多言語化のメカニズムに関する先行研究が確認できた。
SAMIを通じて、HumBench(+72.7%)のジェイルブレイクを「安全」を減らし、GSM8Kベンチマーク(+1.6%)のパフォーマンスを「推論」を増幅することで促進する。
最後に、ImageNet上の視覚変換器の画像分類精度を抑えることにより、アプローチのドメインに依存しない性質を強調した。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では、その後の注意機構をよりよく見る能力を高めるステップワイド・パッチ・マージ(SPM)を提案する。
コードはhttps://github.com/Yonghao-Yu/StepwisePatchMerging.comでリリースされた。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。