論文の概要: Threshold Differential Attention for Sink-Free, Ultra-Sparse, and Non-Dispersive Language Modeling
- arxiv url: http://arxiv.org/abs/2601.12145v1
- Date: Sat, 17 Jan 2026 19:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.481625
- Title: Threshold Differential Attention for Sink-Free, Ultra-Sparse, and Non-Dispersive Language Modeling
- Title(参考訳): Sink-free, Ultra-Sparse, Non-dispersive Language Modelingのための閾値差分注意法
- Authors: Xingyue Huang, Xueying Ding, Mingxuan Ju, Yozen Liu, Neil Shah, Tong Zhao,
- Abstract要約: Threshold Differential Attention (TDA) はシンクレスアテンション機構で、超スパーシビリティを実現し、長いシーケンス長で堅牢性を向上させる。
TDAは縦方向の極値閾値を長さ依存ゲートで適用し、超過しか保持しない。
我々は,TDAが1行あたりの急激なサバイバル数を$O(1)$に制御し,コンテキストが大きくなるにつれてコンセンサスに急激な一致がなくなることを示す。
- 参考スコア(独自算出の注目度): 42.52160764841961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax attention struggles with long contexts due to structural limitations: the strict sum-to-one constraint forces attention sinks on irrelevant tokens, and probability mass disperses as sequence lengths increase. We tackle these problems with Threshold Differential Attention (TDA), a sink-free attention mechanism that achieves ultra-sparsity and improved robustness at longer sequence lengths without the computational overhead of projection methods or the performance degradation caused by noise accumulation of standard rectified attention. TDA applies row-wise extreme-value thresholding with a length-dependent gate, retaining only exceedances. Inspired by the differential transformer, TDA also subtracts an inhibitory view to enhance expressivity. Theoretically, we prove that TDA controls the expected number of spurious survivors per row to $O(1)$ and that consensus spurious matches across independent views vanish as context grows. Empirically, TDA produces $>99\%$ exact zeros and eliminates attention sinks while maintaining competitive performance on standard and long-context benchmarks.
- Abstract(参考訳): 厳密な和対一の制約により、無関係なトークンに注意が沈み込み、シーケンスの長さが増加するにつれて確率質量が分散する。
本稿では,Threshold Differential Attention (TDA) を用いて,提案手法の計算オーバーヘッドや標準修正注意の雑音蓄積による性能劣化を伴わずに,超スパーシ性を実現し,長いシーケンス長での堅牢性を向上させるシンクレストアテンション機構を提案する。
TDAは縦方向の極値閾値を長さ依存ゲートで適用し、超過しか保持しない。
微分変換器にインスパイアされたTDAはまた、表現性を高めるために抑制的なビューを減じる。
理論的には、TDAが1行あたりのスパイラルサバイバーの期待数を$O(1)$に制御し、コンテキストが大きくなるにつれて、独立したビュー間でのコンセンサスによるスプリアスマッチがなくなることを証明している。
経験的に、TDAは99\%の正確なゼロを生成し、標準および長文ベンチマークでの競合性能を維持しながら注意シンクをなくす。
関連論文リスト
- AGDC: Autoregressive Generation of Variable-Length Sequences with Joint Discrete and Continuous Spaces [33.91616464118993]
トランスフォーマーベースの自己回帰モデルはデータ生成に優れるが、識別トークンへの依存によって本質的に制約される。
本稿では,従来の離散化に基づくハイブリッド離散連続列生成手法のスケーラビリティ限界を解析する。
可変長列の離散値と連続値とを連立でモデル化する新しい統合フレームワーク AGDC を提案する。
論文 参考訳(メタデータ) (2026-01-09T09:57:12Z) - Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models [44.28116882776357]
textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
論文 参考訳(メタデータ) (2026-01-06T08:47:16Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning [20.51822826798248]
本稿では、長い入力列をコンパクトなテンソル表現にテンソル化し、各変換次元に注意を向けることで、注意領域を拡大することを提案する。
提案手法は,トークンの依存関係をマルチホップアテンションプロセスとして符号化し,フルアテンションのクロネッカー分解と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-28T11:08:57Z) - Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data [40.82826366059613]
Unsupervised Data Augmentation (UDA) は、モデルの予測の違いを解析するために一貫性損失を適用する半教師付き手法である。
本稿では,UDAを再検討し,その有効性を示す。
一貫性の喪失を適用することで、ラベルのないデータなしで有意義な利益が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-22T18:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。