論文の概要: Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?
- arxiv url: http://arxiv.org/abs/2502.11501v1
- Date: Mon, 17 Feb 2025 07:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.129052
- Title: Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?
- Title(参考訳): マルチモーダル大言語モデルにおけるToken Pruning: 私たちは正しい問題を解決しているのか?
- Authors: Zichen Wen, Yifeng Gao, Weijia Li, Conghui He, Linfeng Zhang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。
近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。
本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
- 参考スコア(独自算出の注目度): 19.35502303812707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable performance for cross-modal understanding and generation, yet still suffer from severe inference costs. Recently, abundant works have been proposed to solve this problem with token pruning, which identifies the redundant tokens in MLLMs and then prunes them to reduce the computation and KV storage costs, leading to significant acceleration without training. While these methods claim efficiency gains, critical questions about their fundamental design and evaluation remain unanswered: Why do many existing approaches underperform even compared to naive random token selection? Are attention-based scoring sufficient for reliably identifying redundant tokens? Is language information really helpful during token pruning? What makes a good trade-off between token importance and duplication? Are current evaluation protocols comprehensive and unbiased? The ignorance of previous research on these problems hinders the long-term development of token pruning. In this paper, we answer these questions one by one, providing insights into the design of future token pruning methods.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。
近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減し,トレーニングなしでの大幅な高速化を実現するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。
これらの手法は効率の向上を主張するが、基本設計と評価に関する批判的な疑問は未解決のままである。
注意に基づくスコアは、冗長トークンを確実に識別するのに十分か?
トークンプルーニング中、言語情報は本当に役に立ちますか?
トークンの重要性と重複の間に、何が良いトレードオフをもたらすのか?
現在の評価プロトコルは包括的でバイアスなしか?
これらの問題に対する以前の研究の無知は、トークンプルーニングの長期的な発展を妨げる。
本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化
正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。
新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文 参考訳(メタデータ) (2025-04-02T17:45:58Z) - Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大きな言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - TokenButler: Token Importance is Predictable [8.514853311344458]
大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。
以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。
TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
論文 参考訳(メタデータ) (2025-03-10T16:41:14Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。
認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。
SoTは、無視できる精度の影響でトークンを76%削減する。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.928285521147057]
トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-02-17T06:56:28Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。
トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models [35.29961848648335]
大規模言語モデル(LLM)は、ステップバイステップの推論チェーンを通じて、数学における顕著な問題解決能力を実証している。
それらは、その後の推論チェーンの品質や、自己回帰的なトークン・バイ・トーケン生成の性質による最終回答に影響を及ぼすエラーの推論に影響を受けやすい。
近年の研究では、推論経路の生成を導くために外部検証器の採用が提案されているが、既存の研究はステップバイステップラベルで訓練されたモデルを利用している。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。