論文の概要: A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention
- arxiv url: http://arxiv.org/abs/2512.03494v1
- Date: Wed, 03 Dec 2025 06:44:02 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:55:19.16102
- Title: A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention
- Title(参考訳): ネイティブ・トップ・ドル・スパース・アテンションの約束と挑戦に関する予備的研究
- Authors: Di Xiu, Hongyin Tang, Bolin Rong, Lizhi Yan, Jingang Wang, Yifan Lu, Xunliang Cai,
- Abstract要約: 本報告では,Top-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
実験によると、Top-k$ Decodingはダウンストリームタスクに匹敵する、あるいは超えるパフォーマンスを実現している。
正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
- 参考スコア(独自算出の注目度): 33.03212783462742
- License:
- Abstract: Large Language Models (LLMs) are increasingly prevalent in the field of long-context modeling, however, their inference computational costs have become a critical bottleneck hindering the advancement of tasks such as agents and multimodal applications. This report conducts a preliminary investigation into the effectiveness and theoretical mechanisms of the Top-$k$ Attention mechanism during both the decoding and training phases. First, we validate the effectiveness of exact Top-$k$ Decoding through extensive experimentation. Experiments demonstrate that retaining only the pivotal Keys with the highest similarity to the Query as the context window during the decoding stage achieves performance comparable to, or even surpassing, full attention on downstream tasks such as HELMET and LongBench v2. Second, we further explore the native Top-$k$ Attention training strategy. Experiments confirm that ensuring the consistency between training and inference regarding Top-$k$ Attention operations facilitates the further unlocking of Top-$k$ Decoding's potential, thereby significantly enhancing model performance. Furthermore, considering the high computational complexity of exact Top-$k$ Attention, we investigate the impact of approximate Top-$k$ algorithm precision on downstream tasks. Our research confirms a positive correlation between downstream task performance and approximation fidelity, and we provide statistical evaluations of the Lightning Indexer's precision within the DeepSeek-V3.2-Exp model. Finally, this report provides a theoretical interpretation from the perspective of Entropy. Experimental observations indicate that models subjected to Top-$k$ Attention SFT exhibit a distinct phenomenon of entropy reduction in downstream tasks, which validates the hypothesis that low-entropy states are better adapted to Top-$k$ Decoding.
- Abstract(参考訳): 大言語モデル(LLM)は、長期コンテキストモデリングの分野でますます普及しているが、その推論計算コストは、エージェントやマルチモーダルアプリケーションのようなタスクの進歩を妨げる重要なボトルネックとなっている。
本報告では,復号および訓練段階におけるTop-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
まず、広範囲な実験を通して、正確なTop-k$ Decodingの有効性を検証する。
実験では、デコード期間中にコンテキストウィンドウとしてクエリに最も類似したキーのみを保持すると、HELMETやLongBench v2のような下流タスクに匹敵する、あるいは超えるパフォーマンスが得られる。
次に、ネイティブなTop-$$ Attentionトレーニング戦略について調べる。
実験では、Top-k$ Attentionオペレーションに関するトレーニングと推論の一貫性を保証することで、Top-k$ Decodingのポテンシャルをさらにアンロックし、モデルパフォーマンスを大幅に向上させる。
さらに、正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
本研究は,ダウンストリームタスク性能と近似忠実度との正の相関性を確認し,DeepSeek-V3.2-ExpモデルにおけるLightning Indexerの精度を統計的に評価する。
最後に、この報告はエントロピーの観点からの理論的解釈を提供する。
実験結果から、Top-k$ Attention SFTのモデルでは、下流のタスクにおいてエントロピーの減少という明確な現象が示され、低エントロピー状態がTop-k$ Decodingに適応しているという仮説が検証された。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models Using Pairwise-Distance Estimators [12.460684753030899]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。