Fugu-MT 論文翻訳(概要): TokenButler: Token Importance is Predictable

論文の概要: TokenButler: Token Importance is Predictable

arxiv url: http://arxiv.org/abs/2503.07518v1
Date: Mon, 10 Mar 2025 16:41:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:45.047556
Title: TokenButler: Token Importance is Predictable
Title（参考訳）: TokenButler: トークンの重要性は予測可能である
Authors: Yash Akhauri, Ahmed F AbouElhamayed, Yifei Gao, Chi-Chih Chang, Nilesh Jain, Mohamed S. Abdelfattah,
Abstract要約: 大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。 TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
参考スコア（独自算出の注目度）: 8.514853311344458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) rely on the Key-Value (KV) Cache to store token history, enabling efficient decoding of tokens. As the KV-Cache grows, it becomes a major memory and computation bottleneck, however, there is an opportunity to alleviate this bottleneck, especially because prior research has shown that only a small subset of tokens contribute meaningfully to each decoding step. A key challenge in finding these critical tokens is that they are dynamic, and heavily input query-dependent. Existing methods either risk quality by evicting tokens permanently, or retain the full KV-Cache but rely on retrieving chunks (pages) of tokens at generation, failing at dense, context-rich tasks. Additionally, many existing KV-Cache sparsity methods rely on inaccurate proxies for token importance. To address these limitations, we introduce TokenButler, a high-granularity, query-aware predictor that learns to identify these critical tokens. By training a light-weight predictor with less than 1.2% parameter overhead, TokenButler prioritizes tokens based on their contextual, predicted importance. This improves perplexity & downstream accuracy by over 8% relative to SoTA methods for estimating token importance. We evaluate TokenButler on a novel synthetic small-context co-referential retrieval task, demonstrating near-oracle accuracy. Code, models and benchmarks: https://github.com/abdelfattah-lab/TokenButler
Abstract（参考訳）: 大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。 KV-Cacheが成長するにつれて、大きなメモリと計算のボトルネックとなるが、特に以前の研究では、トークンの小さなサブセットが各デコードステップに有意義に寄与していることが示されているため、このボトルネックを緩和する機会がある。これらのクリティカルトークンを見つける上で重要な課題は、動的で、入出力の多いクエリ依存である。既存の手法では、トークンを永久に取り除いたり、完全なKVキャッシュを保持することでリスク品質を損なうか、あるいは生成時にトークンのチャンク(ページ)を取得することに依存し、密集したコンテキストに富んだタスクでは失敗する。さらに、既存のKVキャッシュのスパーシリティメソッドの多くはトークンの重要性のために不正確なプロキシに依存している。これらの制限に対処するために、我々はTokenButlerを紹介した。これは、これらの重要なトークンを識別する学習を行う、高粒度でクエリ対応の予測器である。パラメータオーバーヘッドが1.2%未満の軽量予測器をトレーニングすることで、TokenButlerは、コンテキストや予測された重要性に基づいてトークンを優先順位付けする。これにより、トークンの重要度を推定するSoTA法と比較して、パープレキシティと下流の精度が8%以上向上する。そこで我々は,TokenButlerを新しい合成小コンテキスト共参照検索タスクで評価し,ニアオークル精度を実証した。コード、モデル、ベンチマーク:https://github.com/abdelfattah-lab/TokenButler

関連論文リスト

CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文参考訳（メタデータ） (2025-08-04T13:26:16Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文参考訳（メタデータ） (2025-04-18T15:36:28Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? [19.35502303812707]
マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
論文参考訳（メタデータ） (2025-02-17T07:05:36Z)
Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.928285521147057]
トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。 DART(Duplication-Aware Reduction of Tokens)を提案する。実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-02-17T06:56:28Z)
HashAttention: Semantic Sparsity for Faster Inference [91.54218318798603]
HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
論文参考訳（メタデータ） (2024-12-19T02:34:15Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing [32.62377392686119]
本稿では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。 HashEvictは、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮することができる。
論文参考訳（メタデータ） (2024-12-13T06:00:27Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model [45.01871133425388]
ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。 MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
論文参考訳（メタデータ） (2024-11-16T13:45:33Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-06-20T17:56:16Z)
Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文参考訳（メタデータ） (2022-09-28T03:07:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。