論文の概要: Attention Lens: A Tool for Mechanistically Interpreting the Attention
Head Information Retrieval Mechanism
- arxiv url: http://arxiv.org/abs/2310.16270v1
- Date: Wed, 25 Oct 2023 01:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:29:34.181002
- Title: Attention Lens: A Tool for Mechanistically Interpreting the Attention
Head Information Retrieval Mechanism
- Title(参考訳): アテンションレンズ:アテンションヘッド情報検索機構を機械的に解釈するツール
- Authors: Mansi Sakarvadia, Arham Khan, Aswathy Ajith, Daniel Grzenda, Nathaniel
Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster
- Abstract要約: 本稿では,研究者が注目ヘッドの出力を語彙トークンに変換するツールであるAttention Lensを提案する。
トレーニングレンズから得られた予備的な知見は、注意頭が言語モデルにおいて極めて専門的な役割を担っていることを示している。
- 参考スコア(独自算出の注目度): 4.343604069244352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Large Language Models (LLMs) are the state-of-the-art for
natural language tasks. Recent work has attempted to decode, by reverse
engineering the role of linear layers, the internal mechanisms by which LLMs
arrive at their final predictions for text completion tasks. Yet little is
known about the specific role of attention heads in producing the final token
prediction. We propose Attention Lens, a tool that enables researchers to
translate the outputs of attention heads into vocabulary tokens via learned
attention-head-specific transformations called lenses. Preliminary findings
from our trained lenses indicate that attention heads play highly specialized
roles in language models. The code for Attention Lens is available at
github.com/msakarvadia/AttentionLens.
- Abstract(参考訳): Transformer-based Large Language Models (LLM)は、自然言語処理の最先端技術である。
最近の研究は、LLMがテキスト補完タスクの最終予測に到達する内部メカニズムである線形層の役割をリバースエンジニアリングによって復号化しようとしている。
しかし、最終的なトークン予測作成における注意ヘッドの特定の役割についてはほとんど知られていない。
本研究では,注目頭部の出力を,学習された注目頭部特異的なレンズ変換によって語彙トークンに変換するツールであるAttention Lensを提案する。
トレーニングレンズによる予備的な知見は、注意頭が言語モデルにおいて極めて専門的な役割を担っていることを示している。
Attention Lensのコードはgithub.com/msakarvadia/AttentionLensで入手できる。
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。