論文の概要: VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
- arxiv url: http://arxiv.org/abs/2601.22674v1
- Date: Fri, 30 Jan 2026 07:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.30289
- Title: VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
- Title(参考訳): VisionTrim:トレーニング不要MLLMアクセラレーションのための統一ビジョントーケン圧縮
- Authors: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu,
- Abstract要約: MLLM(Multimodal large language model)は、過度な視覚トークンによる計算コストが高い。
トレーニングフリーMLLMアクセラレーションのための統合フレームワークであるVisionTrimを提案する。
- 参考スコア(独自算出の注目度): 31.27071437510817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、特に高解像度およびビデオベースのシナリオにおいて、過度な視覚トークンによって高い計算コストを被る。
既存のトークン削減メソッドは通常、分離されたパイプラインコンポーネントに重点を置いており、テキストのアライメントを無視することが多いため、パフォーマンスが低下する。
本稿では,トレーニング不要なMLLMアクセラレーションのための統合フレームワークであるVisionTrimを提案する。
1)グローバル・ローカル・ビューを通じて重要な視覚トークンを保持する支配的視覚トークン選択(DVTS)モジュール、及び
2) Text-Guided Vision Complement (TGVC)モジュールは,テキストキューでガイドされたコンテキスト認識トークンのマージを容易にする。
多様な画像とビデオのマルチモーダルベンチマークにわたる大規模な実験は、VisionTrimの性能上の優位性を実証し、現実のアプリケーションにおける実用的なMLLMの展開を前進させる。
コードは、https://github.com/hanxunyu/VisionTrim.comで入手できる。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - DisCo: Towards Distinct and Coherent Visual Encapsulation in Video MLLMs [28.998923104606614]
DisCoは、ビデオMLLMに対して意味的に区別され、時間的に一貫性のある視覚トークンを提供するために設計された視覚カプセル化手法である。
DisCoは、様々なビデオ理解ベンチマークで過去の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-07-14T14:05:19Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。