論文の概要: G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.12309v2
- Date: Fri, 15 May 2026 11:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.107141
- Title: G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
- Title(参考訳): G$^2$TR:分離エンコーダ統一マルチモーダルモデルのための生成誘導型ビジュアルトークン削減
- Authors: Junxian Li, Kai Liu, Zizhong Ding, Zhixin Wang, Zhikai Chen, Renjing Pei, Yulun Zhang,
- Abstract要約: 分離エンコーダ統一マルチモーダルモデルのための世代誘導型ビジュアルトークン削減フレームワークを提案する。
G$2$TRは、VAEラテントとの整合性からトークンの重要性を推定し、バランスの取れたトークン選択を実行し、冗長トークンを保持されたデリゲートにマージする。
G$2$TRは、推論精度と編集品質の両方を維持しながら、視覚トークンとプリフィル計算を1.94倍に大幅に削減する。
- 参考スコア(独自算出の注目度): 33.010296874246215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of separate-encoder Unified multimodal models (UMMs) comes with a rapidly growing inference cost due to dense visual token processing. In this paper, we focus on understanding-side visual token reduction for improving the efficiency of separate-encoder UMMs. While this topic has been widely studied for MLLMs, existing methods typically rely on attention scores, text-image similarity and so on, implicitly assuming that the final objective is discriminative reasoning. This assumption does not hold for UMMs, where understanding-side visual tokens must also preserve the model's capabilities for editing images. We propose G$^2$TR, a generation-guided visual token reduction framework for separate-encoder UMMs. Our key insight is that the generation branch provides a task-agnostic signal for identifying understanding-side visual tokens that are not only semantically relevant but also important for latent-space image reconstruction and generation. G$^2$TR estimates token importance from consistency with VAE latent, performs balanced token selection, and merges redundant tokens into retained representatives to reduce information loss. The method is training-free, plug-and-play, and applied only after the understanding encoding stage, making it compatible with existing UMM inference pipelines. Experiments on image understanding and editing benchmarks show that G$^2$TR substantially reduces visual tokens and prefill computation by 1.94x while maintaining both reasoning accuracy and editing quality, outperforming baselines on almost all benchmarks. Code is at: https://github.com/lijunxian111/G2TR.
- Abstract(参考訳): 分離エンコーダ統一マルチモーダルモデル(UMM)の開発は、高密度なビジュアルトークン処理による推論コストの急激な増加を伴っている。
本稿では,分離エンコーダUMMの効率向上を目的とした,理解側の視覚トークン削減に着目した。
この話題はMLLMで広く研究されているが、既存の手法では注意点やテキストイメージの類似性などに頼り、最終目的が差別的推論であると暗黙的に仮定している。
この仮定は、理解側の視覚トークンが画像の編集能力を保持する必要があるUMMには当てはまらない。
分離エンコーダUMMのための世代誘導型ビジュアルトークン削減フレームワークであるG$^2$TRを提案する。
我々の重要な洞察は、生成ブランチが意味論的に関係するだけでなく、潜在空間の画像再構成と生成に重要である理解側視覚トークンを識別するためのタスク非依存の信号を提供することである。
G$^2$TRは、VAEラテントとの整合性からトークンの重要性を推定し、バランスの取れたトークン選択を実行し、冗長トークンを保持されたデリゲートにマージして情報損失を減らす。
本手法は, 既存のUMM推論パイプラインと互換性を持たせるため, 学習不要で, プラグアンドプレイで, 理解エンコーディング段階の後にのみ適用できる。
画像理解と編集ベンチマークの実験により、G$^2$TRは、推論精度と編集品質の両方を維持しながら、視覚トークンとプリフィル計算を1.94倍に削減し、ほぼ全てのベンチマークでベースラインを上回った。
コードは:https://github.com/lijunxian111/G2TR。
関連論文リスト
- RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。