論文の概要: TrimTokenator-LC: Towards Adaptive Visual Token Pruning for Large Multimodal Models with Long Contexts
- arxiv url: http://arxiv.org/abs/2512.22748v1
- Date: Sun, 28 Dec 2025 02:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.20311
- Title: TrimTokenator-LC: Towards Adaptive Visual Token Pruning for Large Multimodal Models with Long Contexts
- Title(参考訳): TrimTokenator-LC:長いコンテキストを持つ大規模マルチモーダルモデルに対する適応型視覚的トーケンプルーニングを目指して
- Authors: Hao Zhang, Mengsi Lyu, Bo Huang, Yulong Ao, Yonghua Lin,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は様々なタスクで有効であることが証明されている。
典型的には、視覚入力をトークンのオリジナルモデルシーケンスにエンコードする。
視覚トークンの増加は、推論コストを大幅に増加させます。
有望なソリューションとして、ビジュアルトークンプルーニングが登場した。
本稿では,長いコンテキストでの視覚的トークンプルーニング,複数画像設定の課題を分析し,このようなシナリオに適した適応型プルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 6.465999214817427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have proven effective on various tasks. They typically encode visual inputs into Original Model sequences of tokens, which are then concatenated with textual tokens and jointly processed by the language model. However, the growing number of visual tokens greatly increases inference cost. Visual token pruning has emerged as a promising solution. However, existing methods often overlook scenarios involving long context inputs with multiple images. In this paper, we analyze the challenges of visual token pruning in long context, multi-image settings and introduce an adaptive pruning method tailored for such scenarios. We decompose redundancy into intra-image and inter-image components and quantify them through intra-image diversity and inter-image variation, which jointly guide dynamic budget allocation. Our approach consists of two stages. The intra-image stage allocates each image a content-aware token budget and greedily selects its most representative tokens. The inter-image stage performs global diversity filtering to form a candidate pool and then applies a Pareto selection procedure that balances diversity with text alignment. Extensive experiments show that our approach maintains strong performance in long context settings while significantly cutting down the number of visual tokens.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は様々なタスクで有効であることが証明されている。
通常は、視覚入力をトークンのオリジナルモデルシーケンスにエンコードし、それをテキストトークンと連結し、言語モデルによって共同で処理する。
しかし、視覚トークンの増加は推論コストを大幅に高めている。
有望なソリューションとして、ビジュアルトークンプルーニングが登場した。
しかし、既存の手法は、複数の画像を持つ長いコンテキスト入力を含むシナリオを見落としてしまうことが多い。
本稿では,長いコンテキストでの視覚的トークンプルーニング,複数画像設定の課題を分析し,このようなシナリオに適した適応型プルーニング手法を提案する。
画像内および画像間コンポーネントに冗長性を分解し、動的予算配分を共同で導く画像内多様性と画像間変動を通じてそれらを定量化する。
私たちのアプローチは2つの段階から成り立っている。
画像内ステージは、各イメージにコンテンツ対応トークン予算を割り当て、最も代表的なトークンを優しく選択する。
画像間において、グローバルな多様性フィルタリングを行い、候補プールを形成し、次に、多様性とテキストアライメントのバランスをとるパレート選択手順を適用する。
広汎な実験により,視覚トークンの数を著しく削減しつつ,長いコンテキスト設定で高い性能を維持していることがわかった。
関連論文リスト
- TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。
提案手法は,次の場面における記述課題の性能向上に寄与する。
ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-26T18:55:06Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。