論文の概要: SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.16883v1
- Date: Sat, 18 Apr 2026 07:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.214011
- Title: SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models
- Title(参考訳): SinkRouter: 大規模言語とマルチモーダルモデルにおける効率的な長期デコーディングのためのシンクアウェアルーティング
- Authors: Junnan Liu, Xinyan Liu, Peifeng Gao, Zhaobo Qi, Beichen Zhang, Weigang Zhang, Antoni Bert Chen,
- Abstract要約: 本研究では,アテンションシンク現象が,トレーニング中に構築された安定かつ到達可能で,誤差制御可能な固定点に対応することを示す。
Sinkは、シンク信号とスキップを検知し、そうでなければニアゼロ出力を生成する訓練不要な選択的ルーティングフレームワークである。
- 参考スコア(独自算出の注目度): 30.198844053934675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In long-context decoding for LLMs and LMMs, attention becomes increasingly memory-bound because each decoding step must load a large amount of KV-cache data from GPU memory. Existing acceleration strategies often trade efficiency for accuracy by relying on heuristic pruning that may discard useful information. At a deeper level, they also tend to indiscriminately preserve all high-scoring tokens, treat early tokens as indispensable anchors, or rely on heuristic head routing, reflecting an insufficient mechanistic understanding of the attention sink phenomenon. In this paper, we show that the attention sink phenomenon corresponds to a stable, reachable, and error-controllable fixed point constructed during training. Based on this insight, we propose SinkRouter, a training-free selective routing framework that detects the sink signal and skips computations that would otherwise produce near-zero output. To translate this mechanism into real-world acceleration, we develop a hardware-aware Triton kernel with block-level branching and Split-K parallelism. We conduct extensive evaluations on a diverse suite of long-context benchmarks, including LongBench, InfiniteBench, CVBench, MileBench, and MMVP, using both text-only and multimodal backbones such as Llama-3.1-8B, Llama-3.1-70B, Yi-9B-200K, LLaVA-1.5-7B, and LLaVA-1.5-13B. Across these settings, SinkRouter consistently improves decoding efficiency while maintaining competitive accuracy, and reaches 2.03x speedup with a 512K context.
- Abstract(参考訳): LLMとLMMの長期デコードでは、各デコードステップがGPUメモリから大量のKVキャッシュデータをロードする必要があるため、注意がメモリバウンドになる。
既存の加速戦略は、有用な情報を捨てる可能性のあるヒューリスティックプルーニングに頼ることによって、正確性のために効率を取引することが多い。
より深いレベルでは、すべてのハイスコアトークンを無差別に保存し、初期トークンを必須のアンカーとして扱い、あるいはヒューリスティックなヘッドルーティングに依存し、注意シンク現象の機械的理解が不十分なことを反映している。
本稿では,アテンションシンク現象が,トレーニング中に構築された安定で到達可能で,エラー制御可能な固定点に対応することを示す。
この知見に基づいて、シンク信号を検出し、それ以外はゼロに近い出力を生成する計算をスキップする、トレーニング不要な選択的ルーティングフレームワークであるSinkRouterを提案する。
この機構を実世界の加速に変換するため,ブロックレベルの分岐とSplit-K並列性を備えたハードウェア対応のTritonカーネルを開発した。
Llama-3.1-8B, Llama-3.1-70B, Yi-9B-200K, LLaVA-1.5-7B, LLaVA-1.5-13Bといったテキストのみのバックボーンとマルチモーダルのバックボーンを用いて、LongBench, InfiniteBench, CVBench, MileBench, MMVPなどの多種多様な長コンテキストベンチマークスイートについて広範な評価を行った。
これらの設定全体で、SinkRouterは競争精度を維持しながらデコード効率を一貫して改善し、512Kコンテキストで2.03倍のスピードアップを達成する。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。
LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。
LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文 参考訳(メタデータ) (2025-02-20T18:59:52Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。