論文の概要: Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02819v1
- Date: Tue, 06 Jan 2026 08:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.86147
- Title: Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models
- Title(参考訳): 大規模言語モデルに対する触覚認識型ハイブリッド学習用スパースアテンション
- Authors: Junxiang Qiu, Shuo Wang, Zhengsu Chen, Hengheng Zhang, Jinda Lu, Changcheng Li, Qi Tian,
- Abstract要約: textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
- 参考スコア(独自算出の注目度): 44.28116882776357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention serves as the fundamental mechanism for long-context modeling in large language models (LLMs), yet dense attention becomes structurally prohibitive for long sequences due to its quadratic complexity. Consequently, sparse attention has received increasing attention as a scalable alternative. However, existing sparse attention methods rely on coarse-grained semantic representations during block selection, which blur intra-block semantic boundaries and lead to the loss of critical information. To address this issue, we propose \textbf{P}unctuation-aware \textbf{H}ybrid \textbf{S}parse \textbf{A}ttention \textbf{(PHSA)}, a natively trainable sparse attention framework that leverages punctuation tokens as semantic boundary anchors. Specifically, (1) we design a dual-branch aggregation mechanism that fuses global semantic representations with punctuation-enhanced boundary features, preserving the core semantic structure while introducing almost no additional computational overhead; (2) we introduce an extreme-sparsity-adaptive training and inference strategy that stabilizes model behavior under very low token activation ratios; Extensive experiments on general benchmarks and long-context evaluations demonstrate that PHSA consistently outperforms dense attention and state-of-the-art sparse attention baselines, including InfLLM v2. Specifically, for the 0.6B-parameter model with 32k-token input sequences, PHSA can reduce the information loss by 10.8\% at a sparsity ratio of 97.3\%.
- Abstract(参考訳): 注意は、大規模言語モデル(LLM)における長期コンテキストモデリングの基本的なメカニズムとして機能するが、その2次複雑さのため、構造的には構造的に禁止される。
結果として、スケーラブルな代替手段として、疎い注意が注目を集めている。
しかし、既存のスパースアテンション手法はブロック選択時の粗い粒度のセマンティック表現に依存しており、ブロック内セマンティック境界を曖昧にし、臨界情報の喪失につながる。
この問題に対処するために、句読点をセマンティック境界アンカーとして活用する、ネイティブにトレーニング可能なスパースアテンションフレームワークである \textbf{P}unctuation-aware \textbf{H}ybrid \textbf{S}parse \textbf{A}ttention \textbf{(PHSA)} を提案する。
具体的には,(1)大域的セマンティック表現を句読的境界特徴と融合させ,計算オーバーヘッドをほとんど含まないままコアセマンティック構造を保ち,(2)極度にスパーシティなトレーニングと推論戦略を導入し,非常に低いトークン活性化率でモデル動作を安定化させる。
具体的には、32kの入力シーケンスを持つ0.6Bパラメータモデルにおいて、PHSAは、空間比97.3\%で情報損失を10.8\%削減することができる。
関連論文リスト
- D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。