論文の概要: TokenButler: Token Importance is Predictable
- arxiv url: http://arxiv.org/abs/2503.07518v1
- Date: Mon, 10 Mar 2025 16:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:31.466718
- Title: TokenButler: Token Importance is Predictable
- Title(参考訳): TokenButler: トークンの重要性は予測可能である
- Authors: Yash Akhauri, Ahmed F AbouElhamayed, Yifei Gao, Chi-Chih Chang, Nilesh Jain, Mohamed S. Abdelfattah,
- Abstract要約: 大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。
以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。
TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
- 参考スコア(独自算出の注目度): 8.514853311344458
- License:
- Abstract: Large Language Models (LLMs) rely on the Key-Value (KV) Cache to store token history, enabling efficient decoding of tokens. As the KV-Cache grows, it becomes a major memory and computation bottleneck, however, there is an opportunity to alleviate this bottleneck, especially because prior research has shown that only a small subset of tokens contribute meaningfully to each decoding step. A key challenge in finding these critical tokens is that they are dynamic, and heavily input query-dependent. Existing methods either risk quality by evicting tokens permanently, or retain the full KV-Cache but rely on retrieving chunks (pages) of tokens at generation, failing at dense, context-rich tasks. Additionally, many existing KV-Cache sparsity methods rely on inaccurate proxies for token importance. To address these limitations, we introduce TokenButler, a high-granularity, query-aware predictor that learns to identify these critical tokens. By training a light-weight predictor with less than 1.2% parameter overhead, TokenButler prioritizes tokens based on their contextual, predicted importance. This improves perplexity & downstream accuracy by over 8% relative to SoTA methods for estimating token importance. We evaluate TokenButler on a novel synthetic small-context co-referential retrieval task, demonstrating near-oracle accuracy. Code, models and benchmarks: https://github.com/abdelfattah-lab/TokenButler
- Abstract(参考訳): 大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。
KV-Cacheが成長するにつれて、大きなメモリと計算のボトルネックとなるが、特に以前の研究では、トークンの小さなサブセットが各デコードステップに有意義に寄与していることが示されているため、このボトルネックを緩和する機会がある。
これらのクリティカルトークンを見つける上で重要な課題は、動的で、入出力の多いクエリ依存である。
既存の手法では、トークンを永久に取り除いたり、完全なKVキャッシュを保持することでリスク品質を損なうか、あるいは生成時にトークンのチャンク(ページ)を取得することに依存し、密集したコンテキストに富んだタスクでは失敗する。
さらに、既存のKVキャッシュのスパーシリティメソッドの多くはトークンの重要性のために不正確なプロキシに依存している。
これらの制限に対処するために、我々はTokenButlerを紹介した。これは、これらの重要なトークンを識別する学習を行う、高粒度でクエリ対応の予測器である。
パラメータオーバーヘッドが1.2%未満の軽量予測器をトレーニングすることで、TokenButlerは、コンテキストや予測された重要性に基づいてトークンを優先順位付けする。
これにより、トークンの重要度を推定するSoTA法と比較して、パープレキシティと下流の精度が8%以上向上する。
そこで我々は,TokenButlerを新しい合成小コンテキスト共参照検索タスクで評価し,ニアオークル精度を実証した。
コード、モデル、ベンチマーク:https://github.com/abdelfattah-lab/TokenButler
関連論文リスト
- Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? [19.35502303812707]
マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。
近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。
本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
論文 参考訳(メタデータ) (2025-02-17T07:05:36Z) - Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.928285521147057]
トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-02-17T06:56:28Z) - HashAttention: Semantic Sparsity for Faster Inference [91.54218318798603]
HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。
ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。
これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
論文 参考訳(メタデータ) (2024-12-19T02:34:15Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing [32.62377392686119]
本稿では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。
HashEvictは、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮することができる。
論文 参考訳(メタデータ) (2024-12-13T06:00:27Z) - Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model [45.01871133425388]
ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。
MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
論文 参考訳(メタデータ) (2024-11-16T13:45:33Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。