論文の概要: Optimizing Native Sparse Attention with Latent Attention and Local Global Alternating Strategies
- arxiv url: http://arxiv.org/abs/2511.00819v1
- Date: Sun, 02 Nov 2025 06:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.952355
- Title: Optimizing Native Sparse Attention with Latent Attention and Local Global Alternating Strategies
- Title(参考訳): 潜在的注意と局所的グローバル交替戦略によるネイティブスパース注意の最適化
- Authors: Yuxuan Hu, Jianchao Tan, Jiaqi Zhang, Wen Zan, Pingwei Sun, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai, Jing Zhang,
- Abstract要約: 長文モデリングを向上する改良を提案する。
ローカル(スライディングウィンドウ)とグローバル(圧縮、選択的)の注意をレイヤ間で交互にすることで、長距離依存関係のより効果的な伝播を可能にします。
- 参考スコア(独自算出の注目度): 32.26860037633772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we conduct a systematic analysis of Native Sparse Attention (NSA) and propose targeted improvements that enhance long-context modeling. A key insight is that alternating between local (sliding-window) and global (compression, selective) attention across layers, rather than using fixed patterns, enables more effective propagation of long-range dependencies and substantially boosts performance on long-sequence tasks. Meanwhile, we further refine NSA's branches with Latent Attention that the sliding-window branch is enhanced with Multi-head Latent Attention (MLA) while compression and selective branches adopt Group-head Latent Attention (GLA). These changes reduce KV-cache memory by 50\% versus NSA while improving the model's common-sense reasoning and long-text understanding capabilities. Experiments on models from 340M to 1.3B parameters (trained on 15B and 100B tokens) show our method matches or exceeds full attention and native sparse attention in both common-sense reasoning and long-context understanding tasks.
- Abstract(参考訳): 本研究では,Native Sparse Attention (NSA) の体系的分析を行い,長期コンテキストモデリングを向上するターゲット改良を提案する。
鍵となる洞察は、固定パターンを使うよりも、局所的な(滑り窓)とグローバルな(圧縮、選択的な)レイヤ間の注意の交互化によって、長距離依存のより効果的な伝播が可能になり、ロングシーケンスタスクのパフォーマンスを大幅に向上させることである。
また,マルチヘッド遅延注意(MLA)とグループヘッド遅延注意(GLA)を併用しながら,スライドウィンドウブランチがマルチヘッド遅延注意(MLA)によって拡張されることを,遅延注意(Latent Attention)を用いてNSAのブランチをさらに洗練する。
これらの変更により、KVキャッシュメモリはNSAに対して50%削減され、モデルの常識的推論と長文理解能力が改善された。
340Mから1.3Bパラメータ(15Bおよび100Bトークンでトレーニングされた)のモデルによる実験では、常識的推論と長文理解の両タスクにおいて、我々の手法が一致しているか、完全に注目され、ネイティブな注意を逸脱している。
関連論文リスト
- Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。
DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。
Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20~60%,ピークメモリ使用量は35%削減された。
論文 参考訳(メタデータ) (2025-10-28T16:34:18Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Tree of Agents: Improving Long-Context Capabilities of Large Language Models through Multi-Perspective Reasoning [11.045096250408067]
Tree of Agents(TOA)は、インプットを独立したエージェントによって処理されたチャンクに分割するマルチエージェント推論フレームワークである。
TOAは、エージェントが複数のパースペクティブな理解のために異なる推論順序を探索することを可能にする。
処理効率を向上させるため,プレフィックスハッシュキャッシュと適応型プルーニング戦略を取り入れた。
論文 参考訳(メタデータ) (2025-09-08T08:34:02Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - SCCA: Shifted Cross Chunk Attention for long contextual semantic
expansion [1.0279748604797911]
我々は、異なるKVシフト戦略を用いて、各注目層内の各フィールドを拡張するシフトされたクロスチャンク注意(SCCA)を提示する。
SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行った。
SCCA は大規模言語モデル (LLM) をもっと長い文脈に拡張し、Placeal (PI) や LoRA と組み合わせることができる。
論文 参考訳(メタデータ) (2023-12-12T14:24:54Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。