Fugu-MT 論文翻訳(概要): Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration

論文の概要: Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration

arxiv url: http://arxiv.org/abs/2406.15765v1
Date: Sat, 22 Jun 2024 07:00:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 20:45:08.283261
Title: Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration
Title（参考訳）: 隠れた注意シンクの解き放つ-注意校正によるトレーニング無しの大規模言語モデルの強化
Authors: Zhongzhi Yu, Zheng Wang, Yonggan Fu, Huihong Shi, Khalid Shaikh, Yingyan Celine Lin,
Abstract要約: 我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。 ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
参考スコア（独自算出の注目度）: 15.36841874118801
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention is a fundamental component behind the remarkable achievements of large language models (LLMs). However, our current understanding of the attention mechanism, especially regarding how attention distributions are established, remains limited. Inspired by recent studies that explore the presence of attention sink in the initial token, which receives disproportionately large attention scores despite their lack of semantic importance, this work delves deeper into this phenomenon. We aim to provide a more profound understanding of the existence of attention sinks within LLMs and to uncover ways to enhance the achievable accuracy of LLMs by directly optimizing the attention distributions, without the need for weight finetuning. Specifically, this work begins with comprehensive visualizations of the attention distributions in LLMs during inference across various inputs and tasks. Based on these visualizations, to the best of our knowledge, we are the first to discover that (1) attention sinks occur not only at the start of sequences but also within later tokens of the input, and (2) not all attention sinks have a positive impact on the achievable accuracy of LLMs. Building upon our findings, we propose a training-free Attention Calibration Technique (ACT) that automatically optimizes the attention distributions on the fly during inference in an input-adaptive manner. Extensive experiments validate that ACT consistently enhances the accuracy of various LLMs across different applications. Specifically, ACT achieves an average improvement of up to 7.30% in accuracy across different datasets when applied to Llama-30B. Our code is available at https://github.com/GATECH-EIC/ACT.
Abstract（参考訳）: 注意は、大きな言語モデル(LLM)の顕著な成果の背後にある基本的な要素である。しかし、注意機構の現在の理解、特に注意分布の確立に関する理解は限られている。意味的重要性の欠如にもかかわらず、非常に大きな注意点を受け取る最初のトークンに注意シンクの存在を探求する最近の研究から着想を得たこの研究は、この現象を深く掘り下げている。本研究の目的は,LLM内の注目シンクの存在をより深く理解し,重量微調整を必要とせず,注意分布を直接最適化することにより,LLMの達成可能な精度を高める方法を明らかにすることである。具体的には、様々な入力やタスクの推論中にLLMの注意分布を包括的に可視化することから始める。これらの視覚化に基づいて,(1)注意シンクはシーケンスの開始時だけでなく,後続の入力トークン内でも発生し,(2)すべての注意シンクがLLMの達成可能な精度に肯定的な影響を及ぼすわけではないことを初めて知る。そこで本研究では,入力適応方式で,ハエの注意分布を自動的に最適化する,トレーニング不要な注意校正手法(ACT)を提案する。広範囲にわたる実験により、ACTは異なる用途にわたる様々なLSMの精度を一貫して向上することが示された。具体的には、ACTはLlama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。私たちのコードはhttps://github.com/GATECH-EIC/ACTで公開されています。

関連論文リスト

ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models [14.657194214702473]
本稿では,最もタスクに敏感なアテンションヘッドをローカライズし,これらのヘッドに対するアテンショントレーニングの更新を制限したアルゴリズムを提案する。実験の結果,3つのタスクのベースラインよりも2%の性能向上を実現しつつ,微調整中に注目パラメータの10%しか活性化しないことがわかった。
論文参考訳（メタデータ） (2025-05-24T17:19:34Z)
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [8.486942657544825]
初期トークンの注意の調整は、その後のトークンよりも注意分布を鋭くしたり、平らにすることを示す。我々は、この特別なトークンに頭部特異的な注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
論文参考訳（メタデータ） (2025-05-16T22:52:24Z)
Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:46:33Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文参考訳（メタデータ） (2025-03-03T14:09:13Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。 Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文参考訳（メタデータ） (2024-10-14T17:50:28Z)
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。この現象はミドル・イン・ザ・ミドル問題として知られている。また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文参考訳（メタデータ） (2024-06-23T04:35:42Z)
Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。 LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-22T03:23:58Z)
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文参考訳（メタデータ） (2023-12-07T17:24:51Z)
Paying More Attention to Self-attention: Improving Pre-trained Language Models via Attention Guiding [35.958164594419515]
事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。 PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
論文参考訳（メタデータ） (2022-04-06T16:22:02Z)
Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文参考訳（メタデータ） (2021-10-25T00:54:57Z)
More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。 CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。 Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文参考訳（メタデータ） (2021-05-20T08:48:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。