論文の概要: Learning to Attribute with Attention
- arxiv url: http://arxiv.org/abs/2504.13752v1
- Date: Fri, 18 Apr 2025 15:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:14:58.540572
- Title: Learning to Attribute with Attention
- Title(参考訳): 注意して属性を学習する
- Authors: Benjamin Cohen-Wang, Yung-Sung Chuang, Aleksander Madry,
- Abstract要約: 本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。
このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。
提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
- 参考スコア(独自算出の注目度): 75.61481181755744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a sequence of tokens generated by a language model, we may want to identify the preceding tokens that influence the model to generate this sequence. Performing such token attribution is expensive; a common approach is to ablate preceding tokens and directly measure their effects. To reduce the cost of token attribution, we revisit attention weights as a heuristic for how a language model uses previous tokens. Naive approaches to attribute model behavior with attention (e.g., averaging attention weights across attention heads to estimate a token's influence) have been found to be unreliable. To attain faithful attributions, we propose treating the attention weights of different attention heads as features. This way, we can learn how to effectively leverage attention weights for attribution (using signal from ablations). Our resulting method, Attribution with Attention (AT2), reliably performs on par with approaches that involve many ablations, while being significantly more efficient. To showcase the utility of AT2, we use it to prune less important parts of a provided context in a question answering setting, improving answer quality. We provide code for AT2 at https://github.com/MadryLab/AT2 .
- Abstract(参考訳): 言語モデルによって生成されるトークンのシーケンスを考えると、このシーケンスを生成するためにモデルに影響を与える前のトークンを識別したいかもしれません。
このようなトークンの属性を実行するのは費用がかかる; 一般的なアプローチは、前のトークンをアブレーションし、その効果を直接測定することである。
トークン属性のコストを削減するため、言語モデルが以前のトークンをどのように利用するかのヒューリスティックとして注意重みを再考する。
注意を伴う属性モデル行動(例えば、トークンの影響を推定するために注意頭を通して注意重みを平均化する)に対するナイーブなアプローチは信頼できないことが判明した。
忠実な属性を得るために,異なる注意点の重み付けを特徴として扱うことを提案する。
このようにして、アトリビューションに注意重みを効果的に活用する方法(アブレーションからの信号を使って)を学ぶことができる。
提案手法であるAtribution with Attention (AT2) は,多くのアブレーションを含むアプローチと同等に動作し,より効率的である。
AT2の実用性を示すため、質問応答設定において、提供された文脈の重要でない部分をプルークし、回答品質を向上させる。
https://github.com/MadryLab/AT2 で AT2 のコードを提供しています。
関連論文リスト
- Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.928285521147057]
トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-02-17T06:56:28Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - More Expressive Attention with Negative Weights [36.40344438470477]
本稿では,注意重みを否定的に表現力を高めるための新しい注意機構,Cog Attentionを提案する。
我々のアプローチは、従来のソフトマックスの注意力の制約を再考し、壊すための有望な研究方向を示唆している。
論文 参考訳(メタデータ) (2024-11-11T17:56:28Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。