論文の概要: QMoP: Query Guided Mixture-of-Projector for Efficient Visual Token Compression
- arxiv url: http://arxiv.org/abs/2603.21232v1
- Date: Sun, 22 Mar 2026 13:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.303116
- Title: QMoP: Query Guided Mixture-of-Projector for Efficient Visual Token Compression
- Title(参考訳): QMoP: 効率的なビジュアルトークン圧縮のためのクエリガイド混合プロジェクタ
- Authors: Zhongyang Li, Yaqian Li, Faming Fang, Rinyoichi Takezoe, Zi-Hao Bo, Cheng Qian, Mo Guang, Guixu Zhang, Kaiwen Long,
- Abstract要約: 視覚トークンを3つの協調ブランチを介して適応的に圧縮する新しいフレームワークを提案する。
QMoPはメモリ、計算、推論時間を大幅に節約する。
- 参考スコア(独自算出の注目度): 35.802647459700125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models suffer from severe computational and memory bottlenecks, as the number of visual tokens far exceeds that of textual tokens. While recent methods employ projector modules to align and compress visual tokens into text-aligned features, they typically depend on fixed heuristics that limit adaptability across diverse scenarios. In this paper, we first propose Query Guided Mixture-of-Projector (QMoP), a novel and flexible framework that adaptively compresses visual tokens via three collaborative branches: (1) a pooling-based branch for coarse-grained global semantics, (2) a resampler branch for extracting high-level semantic representations, and (3) a pruning-based branch for fine-grained token selection to preserve critical visual detail. To adaptively coordinate these branches, we introduce the Query Guided Router (QGR), which dynamically selects and weights the outputs from different branches based on both visual input and textual queries. A Mixture-of-Experts-style fusion mechanism is designed to aggregate the outputs, harnessing the strengths of each strategy while suppressing noise. To systematically evaluate the effects of Visual Token Compression, we also develop VTCBench, a dedicated benchmark for evaluating the information loss induced by visual token compression. Extensive experiments demonstrate that despite relying on fundamental compression modules, QMoP outperforms strong baselines and delivers significant savings in memory, computation, and inference time.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、視覚トークンの数がテキストトークンよりもはるかに多いため、計算とメモリのボトルネックに悩まされる。
最近の手法では、プロジェクターモジュールを使用して、視覚トークンをテキスト整列機能に調整し、圧縮するが、通常は様々なシナリオにおける適応性を制限する固定ヒューリスティックに依存する。
本稿では,(1)大まかなグローバルセマンティクスのためのプーリングベース分岐,(2)高レベルのセマンティクス表現を抽出する再サンプルブランチ,(3)きめ細かなトークン選択のためのプルーニングベース分岐という,3つの協調的なブランチを通じて視覚トークンを適応的に圧縮する,新規で柔軟なフレームワークであるQuery Guided Mixture-of-Projector(QMoP)を提案する。
これらのブランチを適応的にコーディネートするために、ビジュアル入力とテキストクエリの両方に基づいて、異なるブランチからの出力を動的に選択および重み付けするQuery Guided Router (QGR)を導入する。
Mixture-of-Expertsスタイルの融合機構は出力を集約し、ノイズを抑えながら各戦略の強みを利用するように設計されている。
視覚トークン圧縮の効果を体系的に評価するために,視覚トークン圧縮によって引き起こされる情報損失を評価する専用のベンチマークであるVTCBenchを開発した。
大規模な実験では、基本的な圧縮モジュールに依存するにもかかわらず、QMoPは強いベースラインを上回り、メモリ、計算、推論時間を大幅に節約することを示した。
関連論文リスト
- Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - UniCompress: Token Compression for Unified Vision-Language Understanding and Generation [62.943173382496276]
統一モデルは、イメージを個別のトークンにエンコードし、テキストと共にそれらを処理することによって、理解と生成の両方をサポートすることを目的としている。
本稿では,画像理解と生成の両タスクのパフォーマンスを保ちながら,視覚的トークン数を大幅に削減する統一されたトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-11T21:27:15Z) - EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection [31.15442597866692]
EfficientPosterGenは、学術ポスターの自動生成のためのエンドツーエンドフレームワークである。
セマンティックアウェア検索とトークン効率のマルチモーダル生成を導入している。
トークンの効率とレイアウトの信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-25T17:03:39Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。