論文の概要: Scale-invariant Attention
- arxiv url: http://arxiv.org/abs/2505.17083v1
- Date: Tue, 20 May 2025 15:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.54029
- Title: Scale-invariant Attention
- Title(参考訳): スケール不変注意
- Authors: Ben Anson, Xi Wang, Laurence Aitchison,
- Abstract要約: 注意ログの単純な位置依存変換は、2つの条件を保つのに十分であることを示す。
実験により,結果のスケール不変なアテンションスキームは,検証損失の点で大きなメリットをもたらすことがわかった。
- 参考スコア(独自算出の注目度): 26.67571012118823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One persistent challenge in LLM research is the development of attention mechanisms that are able to generalise from training on shorter contexts to inference on longer contexts. We propose two conditions that we expect all effective long context attention mechanisms to have: scale-invariant total attention, and scale-invariant attention sparsity. Under a Gaussian assumption, we show that a simple position-dependent transformation of the attention logits is sufficient for these conditions to hold. Experimentally we find that the resulting scale-invariant attention scheme gives considerable benefits in terms of validation loss when zero-shot generalising from training on short contexts to validation on longer contexts, and is effective at long-context retrieval.
- Abstract(参考訳): LLM研究における永続的な課題の1つは、短い文脈でのトレーニングから長い文脈での推論までを一般化できる注意機構の開発である。
我々は,すべての有効長期的注意機構が持つであろう2つの条件を提案する。
ガウスの仮定の下では、これらの条件を満たすのに、単純な位置依存的なアテンションロジット変換が十分であることを示す。
実験により,結果のスケール不変なアテンションスキームは,短い文脈でのトレーニングから長い文脈での検証までゼロショットが一般化した場合に,検証損失の面でかなりの効果が得られ,長期コンテキスト検索に有効であることが確認された。
関連論文リスト
- The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs [40.35884943268004]
非常に長いシーケンスでは、より大きくスパースなモデルの方が小さくて密度の高いモデルよりも好ましいことを示す。
タスクやフェーズをまたいでベストを尽くす明確な戦略は存在しません。
本研究は, 厳密な注意を喚起するための新しいスケーリング法を導入し, 検証し, 実験範囲を超えている可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-24T17:39:25Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation [3.735352744532723]
本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。
AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。
LongBenchとBabilongベンチマークの実験では、AttentionRAGは最大6.3$times$コンテキスト圧縮を達成し、LLMLinguaのメソッドはキーメトリックで約10%上回っている。
論文 参考訳(メタデータ) (2025-03-13T08:22:28Z) - Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval [33.84832445715185]
大規模言語モデル(LLM)は、要求される能力よりもはるかに短い有効文脈長を示すことが多い。
本研究では,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。
以上の結果から,Attrievalは,合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
論文 参考訳(メタデータ) (2025-03-12T20:34:14Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Is Attention Interpretation? A Quantitative Assessment On Sets [0.0]
集合機械学習の文脈における注意の解釈可能性について検討する。
注意分布は、個々のインスタンスの相対的な重要性を反映していることが多い。
我々は、注意に基づく説明を誤解させるリスクを最小限に抑えるためにアンサンブルを使うことを提案する。
論文 参考訳(メタデータ) (2022-07-26T16:25:38Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。