論文の概要: QuickMerge++: Fast Token Merging with Autoregressive Prior
- arxiv url: http://arxiv.org/abs/2508.13204v1
- Date: Sat, 16 Aug 2025 06:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.651359
- Title: QuickMerge++: Fast Token Merging with Autoregressive Prior
- Title(参考訳): QuickMerge++: 自動回帰プリミティブによる高速トーケンマージ
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: 高速な次世代予測のための軽量フレームワークであるQuickMergeを提案する。
セマンティックサリエンス推定、フレキシブルトークン予算、ARアライメントを組み合わせることで、QuickMergeはより少ないトークンで正確な生成を可能にする。
マルチモダリティドメイン間でQuickMergeを評価し、計算精度のトレードオフを一貫した改善を実証する。
- 参考スコア(独自算出の注目度): 6.185573921868495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative models scale to larger inputs across language, vision, and video domains, the cost of token-level computation has become a key bottleneck. While prior work suggests that only a subset of tokens significantly influence downstream predictions, most token selection methods are static, modality-specific, or incompatible with autoregressive generation. In this paper, we propose QuickMerge, a lightweight token merging framework designed for efficient next-token prediction. QuickMerge dynamically selects a reduced number of tokens based on attention norm magnitude, guided by an entropy-based budget estimator. To preserve autoregressive compatibility, we introduce a lightweight transformer prior trained over the merged token sequence. By combining semantic salience estimation, flexible token budgets, and AR alignment, QuickMerge enables accurate generation with fewer tokens. We evaluate QuickMerge across multi-modality domains, demonstrating consistent improvements in compute-accuracy tradeoffs. Specifically, QuickMerge reduces token counts sustantially while matching as well as exceeding the performance of learned tokenizers and fixed-patch baselines.
- Abstract(参考訳): 生成モデルが言語、視覚、ビデオ領域にわたるより大きな入力にスケールするにつれ、トークンレベルの計算コストは重要なボトルネックとなっている。
以前の研究は、トークンのサブセットのみが下流の予測に大きく影響していることを示唆していたが、ほとんどのトークン選択手法は静的であり、モダリティに特有であり、自己回帰生成と相容れない。
本稿では,より効率的な次世代予測のために設計された軽量トークンマージフレームワークであるQuickMergeを提案する。
QuickMergeは、エントロピーベースの予算推定器で導かれる注意基準度に基づいて、動的にトークン数を減らし、動的に選択する。
自己回帰整合性を維持するために,合併トークンシーケンス上で事前訓練された軽量トランスフォーマーを導入する。
セマンティックサリエンス推定、フレキシブルトークン予算、ARアライメントを組み合わせることで、QuickMergeはより少ないトークンで正確な生成を可能にする。
マルチモダリティドメイン間でQuickMergeを評価し、計算精度のトレードオフを一貫した改善を実証する。
具体的には、QuickMergeは、マッチング中にトークン数を減らし、学習したトークンライザと固定パッチベースラインのパフォーマンスを超過する。
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding [11.07450742824775]
投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
論文 参考訳(メタデータ) (2025-03-13T07:55:38Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。