論文の概要: Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration
- arxiv url: http://arxiv.org/abs/2406.15765v1
- Date: Sat, 22 Jun 2024 07:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:45:08.283261
- Title: Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration
- Title(参考訳): 隠れた注意シンクの解き放つ-注意校正によるトレーニング無しの大規模言語モデルの強化
- Authors: Zhongzhi Yu, Zheng Wang, Yonggan Fu, Huihong Shi, Khalid Shaikh, Yingyan Celine Lin,
- Abstract要約: 我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
- 参考スコア(独自算出の注目度): 15.36841874118801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is a fundamental component behind the remarkable achievements of large language models (LLMs). However, our current understanding of the attention mechanism, especially regarding how attention distributions are established, remains limited. Inspired by recent studies that explore the presence of attention sink in the initial token, which receives disproportionately large attention scores despite their lack of semantic importance, this work delves deeper into this phenomenon. We aim to provide a more profound understanding of the existence of attention sinks within LLMs and to uncover ways to enhance the achievable accuracy of LLMs by directly optimizing the attention distributions, without the need for weight finetuning. Specifically, this work begins with comprehensive visualizations of the attention distributions in LLMs during inference across various inputs and tasks. Based on these visualizations, to the best of our knowledge, we are the first to discover that (1) attention sinks occur not only at the start of sequences but also within later tokens of the input, and (2) not all attention sinks have a positive impact on the achievable accuracy of LLMs. Building upon our findings, we propose a training-free Attention Calibration Technique (ACT) that automatically optimizes the attention distributions on the fly during inference in an input-adaptive manner. Extensive experiments validate that ACT consistently enhances the accuracy of various LLMs across different applications. Specifically, ACT achieves an average improvement of up to 7.30% in accuracy across different datasets when applied to Llama-30B. Our code is available at https://github.com/GATECH-EIC/ACT.
- Abstract(参考訳): 注意は、大きな言語モデル(LLM)の顕著な成果の背後にある基本的な要素である。
しかし、注意機構の現在の理解、特に注意分布の確立に関する理解は限られている。
意味的重要性の欠如にもかかわらず、非常に大きな注意点を受け取る最初のトークンに注意シンクの存在を探求する最近の研究から着想を得たこの研究は、この現象を深く掘り下げている。
本研究の目的は,LLM内の注目シンクの存在をより深く理解し,重量微調整を必要とせず,注意分布を直接最適化することにより,LLMの達成可能な精度を高める方法を明らかにすることである。
具体的には、様々な入力やタスクの推論中にLLMの注意分布を包括的に可視化することから始める。
これらの視覚化に基づいて,(1)注意シンクはシーケンスの開始時だけでなく,後続の入力トークン内でも発生し,(2)すべての注意シンクがLLMの達成可能な精度に肯定的な影響を及ぼすわけではないことを初めて知る。
そこで本研究では,入力適応方式で,ハエの注意分布を自動的に最適化する,トレーニング不要な注意校正手法(ACT)を提案する。
広範囲にわたる実験により、ACTは異なる用途にわたる様々なLSMの精度を一貫して向上することが示された。
具体的には、ACTはLlama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
私たちのコードはhttps://github.com/GATECH-EIC/ACTで公開されています。
関連論文リスト
- Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding [35.958164594419515]
事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
論文 参考訳(メタデータ) (2022-04-06T16:22:02Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。