論文の概要: A Unified Sparse Attention via Multi-Granularity Compression
- arxiv url: http://arxiv.org/abs/2512.14082v1
- Date: Tue, 16 Dec 2025 04:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.588372
- Title: A Unified Sparse Attention via Multi-Granularity Compression
- Title(参考訳): マルチグラニュラリティ圧縮による統一スパースアテンション
- Authors: Siran Liu, Zane Cao, Yongchao He,
- Abstract要約: 複合トークンの概念を導入する統一機構であるUniSparseについて述べる。
複数のモダリティとタスクにわたって、UniSparseは精度と効率の両面で最先端のスパースアテンション手法を一貫して超越している。
- 参考スコア(独自算出の注目度): 0.6848057161210613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient long-context understanding and reasoning are increasingly vital for large language model (LLM) applications such as multi-turn dialogue and program analysis. However, the core self-attention mechanism scales quadratically with sequence length, creating a fundamental computational bottleneck. Existing sparse attention methods alleviate this issue but face trade-offs: training-based methods are costly and cannot be directly applied as acceleration plugins for other models, while inference-time methods often compromise efficiency or cross-modal generality. To address these limitations, we present UniSparse, a unified mechanism that introduces the notion of composite tokens--compact representations that aggregate multi-granularity contextual information. Building on this abstraction, UniSparse dynamically constructs sparse attention through multi-granularity compression and block-level selection, enabling efficient and hardware-friendly execution on GPU. Across multiple modalities and tasks ranging from synthetic benchmarks to real-world applications, UniSparse consistently surpasses state-of-the-art sparse attention methods (e.g., MInference, XAttention, FlexPrefill) in both accuracy and efficiency, achieving $\ge$ 99% of full-attention accuracy and up to 2.61$\times$ faster attention computation than FlashAttention.
- Abstract(参考訳): マルチターン対話やプログラム解析などの大規模言語モデル(LLM)アプリケーションでは,より効率的な長文理解と推論がますます重要になっている。
しかし、コア自己注意機構はシーケンス長と2次的にスケールし、基本的な計算ボトルネックを生み出す。
トレーニングベースの手法はコストがかかり、他のモデルのアクセラレーションプラグインとして直接適用することはできない。
これらの制約に対処するために、複合トークンの概念を導入する統一的なメカニズムであるUniSparseを提案する。
この抽象化に基づいて、UniSparseはマルチグラニュラリティ圧縮とブロックレベルの選択を通じてスパースアテンションを動的に構築し、GPU上で効率的でハードウェアフレンドリーな実行を可能にする。
UniSparseは、合成ベンチマークから実世界のアプリケーションまで、複数のモダリティとタスクを網羅し、常に最先端のスパースアテンションメソッド(例えば、MInference、XAttention、FlexPrefill)を精度と効率の両方で上回り、フルアテンション精度の99%、最大2.61$\times$、FlashAttentionよりも高速なアテンション計算を実現している。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Trainable Dynamic Mask Sparse Attention [11.506985057671015]
トレーニング可能なダイナミックマスクスパースアテンション機構を導入し、位置認識とコンテンツ認識の両方のアプローチの利点を融合する手法を提案する。
導入したダイナミックマスクとスパースウェイトは勾配を阻害せず、エンドツーエンドのトレーニングを支援することを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:05:15Z) - Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation [1.4525238046020867]
Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
本稿では,拡散モデルに基づくオープン語彙セグメンテーションのためのトレーニングフリーフレームワークであるFA-Segを提案する。
論文 参考訳(メタデータ) (2025-06-29T16:41:41Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。