Fugu-MT 論文翻訳(概要): TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

論文の概要: TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2503.10501v1
Date: Thu, 13 Mar 2025 16:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.758327
Title: TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models
Title（参考訳）: TokenCarve:マルチモーダル大言語モデルにおける情報保存型ビジュアルトーケン圧縮
Authors: Xudong Tan, Peng Ye, Chongjun Tu, Jianjian Cao, Yaoxin Yang, Lin Zhang, Dongzhan Zhou, Tao Chen,
Abstract要約: TokenCarveは、2段階のトークン圧縮フレームワークである。ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
参考スコア（独自算出の注目度）: 8.636574530055817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) are becoming increasingly popular, while the high computational cost associated with multimodal data input, particularly from visual tokens, poses a significant challenge. Existing training-based token compression methods improve inference efficiency but require costly retraining, while training-free methods struggle to maintain performance when aggressively reducing token counts. In this study, we reveal that the performance degradation of MLLM closely correlates with the accelerated loss of information in the attention output matrix. This insight introduces a novel information-preserving perspective, making it possible to maintain performance even under extreme token compression. Based on this finding, we propose TokenCarve, a training-free, plug-and-play, two-stage token compression framework. The first stage employs an Information-Preservation-Guided Selection (IPGS) strategy to prune low-information tokens, while the second stage further leverages IPGS to guide token merging, minimizing information loss. Extensive experiments on 11 datasets and 2 model variants demonstrate the effectiveness of TokenCarve. It can even reduce the number of visual tokens to 22.2% of the original count, achieving a 1.23x speedup in inference, a 64% reduction in KV cache storage, and only a 1.54% drop in accuracy. Our code is available at https://github.com/ShawnTan86/TokenCarve.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)はますます普及しており、特に視覚トークンからのマルチモーダルデータ入力に関連する計算コストが高いことが大きな課題となっている。既存のトレーニングベースのトークン圧縮手法は推論効率を改善するが、コストがかかる。本研究では,MLLMの性能劣化が注目出力行列における情報損失の加速と密接に関連していることを明らかにする。この洞察は、新しい情報保存の観点を導入し、極端なトークン圧縮でもパフォーマンスを維持することができる。そこで本研究では,2段階のトークン圧縮フレームワークであるTokenCarveを提案する。第1段階では、低情報トークンの発行にIPGS(Information-Preservation-Guided Selection)戦略を採用し、第2段階ではIPGSを活用して、トークンのマージをガイドし、情報損失を最小限にする。 11のデータセットと2つのモデル変異に関する大規模な実験は、TokenCarveの有効性を示している。ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。私たちのコードはhttps://github.com/ShawnTan86/TokenCarve.comから入手可能です。

関連論文リスト

VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文参考訳（メタデータ） (2025-10-18T17:54:18Z)
Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文参考訳（メタデータ） (2025-09-01T15:28:44Z)
METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文参考訳（メタデータ） (2025-06-03T13:19:41Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models [50.214593234229255]
極端に短いトークンの削減という新しいタスクを導入し、最小限のトークン数で広範囲なビデオシーケンスを表現することを目的としている。空間的時間的コヒーレンスを保ちながらトークン数を動的に削減する新しいビデオ表現フレームワークであるToken Dynamicsを提案する。実験では、トークンの数を0.07%に減らし、小さなパフォーマンス低下は1.13%に過ぎなかった。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。 Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文参考訳（メタデータ） (2025-01-31T11:09:16Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T10:36:43Z)
Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文参考訳（メタデータ） (2024-08-11T18:40:36Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。 GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文参考訳（メタデータ） (2024-06-28T17:57:14Z)
Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-06-03T12:51:52Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文参考訳（メタデータ） (2022-09-28T03:07:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。