論文の概要: LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs
- arxiv url: http://arxiv.org/abs/2511.21150v1
- Date: Wed, 26 Nov 2025 08:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.022849
- Title: LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs
- Title(参考訳): LLaVA-UHD v3: MLLMの効率的なネイティブリゾリューションエンコーディングのためのプログレッシブビジュアル圧縮
- Authors: Shichu Sun, Yichen Zhang, Haolin Song, Zonghao Guo, Chi Chen, Yidan Zhang, Yuan Yao, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
- 参考スコア(独自算出の注目度): 52.24096832965001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual encoding followed by token condensing has become the standard architectural paradigm in multi-modal large language models (MLLMs). Many recent MLLMs increasingly favor global native- resolution visual encoding over slice-based methods. To investigate this trend, we systematically compare their behavior on vision-language understanding and attention patterns, revealing that global encoding enhances overall capability but at the expense of greater computational overhead. To address this issue, we present LLaVA-UHD v3, an MLLM centered upon our proposed Progressive Visual Compression (PVC) method, which can be seamlessly integrated into standard Vision Transformer (ViT) to enable efficient native-resolution encoding. The PVC approach consists of two key modules: (i) refined patch embedding, which supports flexible patch-size scaling for fine-grained visual model- ing, (ii) windowed token compression, hierarchically deployed across ViT layers to progressively aggregate local token representations. Jointly modulated by these two modules, a widely pretrained ViT can be reconfigured into an efficient architecture while largely preserving generality. Evaluated across extensive benchmarks, the transformed ViT, termed ViT-UHD, demonstrates competitive performance with MoonViT while reducing TTFT (time-to-first-token) by 2.4x, when developed within an identical MLLM architecture. Building upon ViT-UHD, LLaVA-UHD v3 also achieves competitive performance to Qwen2-VL, while further reducing TTFT by 1.9x. We will release all code and checkpoints to support future research on efficient MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では、視覚符号化に続いてトークン凝縮が標準的なアーキテクチャパラダイムとなっている。
最近のMLLMの多くは、スライスベースの方法よりもグローバルなネイティブ解像度のビジュアルエンコーディングを好んでいる。
この傾向を明らかにするために、視覚言語理解と注意パターンに対するそれらの振る舞いを体系的に比較し、グローバルエンコーディングは全体的な能力を高めるが、計算オーバーヘッドの増大を犠牲にすることを明らかにする。
この問題に対処するために,提案したプログレッシブ・ビジュアル・圧縮(PVC)方式を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVCアプローチは2つの主要なモジュールから構成される。
i) きめ細かい視覚モデル作成のためのフレキシブルなパッチサイズスケーリングをサポートする改良されたパッチ埋め込み。
(ii) 局所トークン表現を段階的に集約するために、ViT層全体に階層的にデプロイされるウィンドウトークン圧縮。
これら2つのモジュールによって共同で変調され、広く事前訓練されたViTは、概して一般性を保ちながら効率的なアーキテクチャに再構成することができる。
ViT-UHDと呼ばれる変換されたViTはMoonViTと競合する性能を示し、同じMLLMアーキテクチャで開発されたTTFT(time-to-first-token)を2.4倍削減する。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
効率的なMLLMに関する将来の研究を支援するため、すべてのコードとチェックポイントをリリースする。
関連論文リスト
- LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs [4.478610052538001]
LLaVA-SPは、視覚的表現を高めるために、元の視覚的トークンに6つの空間的視覚的トークンのみを付加する。
LLaVA-SP-CroppingとLLaVA-SP-Poolingは適応的なプールによってグローバルなセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-07-01T07:20:11Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。