論文の概要: CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2508.07871v1
- Date: Mon, 11 Aug 2025 11:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.06694
- Title: CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning
- Title(参考訳): CATP: 効率的なマルチモーダルインコンテキスト学習のための文脈適応型トーケンプルーニング
- Authors: Yanshu Li, Jianjiang Yang, Zhennan Shen, Ligong Han, Haoyan Xu, Ruixiang Tang,
- Abstract要約: マルチモーダル・イン・コンテクスト・ラーニング(ICL)を対象とした学習自由プルーニング手法であるCATP(Contextual Adaptive Token Pruning)を提案する。
画像トークンの77.8%を取り除いた後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6%の性能向上を達成した。
平均10.78%のレイテンシ削減を達成することで効率を効果的に向上する。
- 参考スコア(独自算出の注目度): 15.733788584792388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large vision-language models (LVLMs) convert each input image into a large set of tokens, far outnumbering the text tokens. Although this improves visual perception, it introduces severe image token redundancy. Because image tokens carry sparse information, many add little to reasoning, yet greatly increase inference cost. The emerging image token pruning methods tackle this issue by identifying the most important tokens and discarding the rest. These methods can raise efficiency with only modest performance loss. However, most of them only consider single-image tasks and overlook multimodal in-context learning (ICL), where redundancy is greater and efficiency is more critical. Redundant tokens weaken the advantage of multimodal ICL for rapid domain adaptation and cause unstable performance. Applying existing pruning methods in this setting leads to large accuracy drops, exposing a clear gap and the need for new techniques. Thus, we propose Contextually Adaptive Token Pruning (CATP), a training-free pruning method targeted at multimodal ICL. CATP consists of two stages that perform progressive pruning to fully account for the complex cross-modal interactions in the input sequence. After removing 77.8\% of the image tokens, CATP produces an average performance gain of 0.6\% over the vanilla model on four LVLMs and eight benchmarks, exceeding all baselines remarkably. Meanwhile, it effectively improves efficiency by achieving an average reduction of 10.78\% in inference latency. CATP enhances the practical value of multimodal ICL and lays the groundwork for future progress in interleaved image-text scenarios.
- Abstract(参考訳): 現代の大きな視覚言語モデル(LVLM)は、入力された画像を大きなトークンの集合に変換し、テキストトークンよりもはるかに多い。
これにより視覚的知覚が向上するが、深刻な画像トークンの冗長性がもたらされる。
画像トークンはスパース情報を持っているため、推論にはほとんど加わらず、推論コストが大幅に増加する。
新たなイメージトークンプルーニングメソッドは、最も重要なトークンを特定し、残りのトークンを破棄することで、この問題に対処する。
これらの方法は、わずかな性能損失だけで効率を上げることができる。
しかし、それらの多くは単一イメージタスクのみを考慮し、冗長性が大きく、効率性がより重要であるマルチモーダル・イン・コンテキスト・ラーニング(ICL)を見落としている。
冗長トークンは、高速なドメイン適応のためのマルチモーダルICLの利点を弱め、不安定なパフォーマンスを引き起こす。
この設定に既存のプルーニングメソッドを適用すると、大きな精度低下が発生し、明確なギャップと新しいテクニックの必要性が明らかになる。
そこで本研究では,マルチモーダルICLを対象とした学習自由プルーニング手法であるContextually Adaptive Token Pruning (CATP)を提案する。
CATPは2つの段階から構成され、入力配列における複雑な相互モーダル相互作用を完全に説明するためにプログレッシブプルーニングを行う。
画像トークンの77.8\%を除去した後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6\%の性能向上を達成し、全てのベースラインを著しく上回った。
一方、推論遅延の平均10.78\%の削減を達成して効率を効果的に向上する。
CATPはマルチモーダルICLの実用的価値を高め、インターリーブ画像テキストシナリオにおける今後の進歩の基盤となる。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。