論文の概要: QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining
- arxiv url: http://arxiv.org/abs/2505.23004v1
- Date: Thu, 29 May 2025 02:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.626083
- Title: QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining
- Title(参考訳): QLIP: 動的四分木ビジョンでMLLMのパフォーマンスをトレーニングなしで向上
- Authors: Kyle R. Chickering, Bangzheng Li, Muhao Chen,
- Abstract要約: 既存のMLLMとシームレスに統合可能なCLIPビジョンエンコーダのドロップイン置換を提案する。
QLIPは、様々なモデルサイズにわたるLLaVA v1.5モデルの一般的な視覚的質問応答精度を改善する。
特にQLIPは、挑戦的な$Vast$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
- 参考スコア(独自算出の注目度): 28.2730962800806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) encode images into visual tokens, aligning visual and textual signals within a shared latent space to facilitate crossmodal representation learning. The CLIP model is a widely adopted foundational vision language model whose vision encoder has played a critical role in the development of MLLMs such as LLaVA. However, the CLIP vision encoder suffers from notable limitations including being constrained to only handling fixed input resolutions and a failure to produce separated embeddings for dissimilar images. Replacing the vision encoder of an existing model typically incurs substantial computational costs because such a change often necessitates retraining the entire model pipeline. In this work, we identify two factors which underlie the limitations of the CLIP vision encoder: mesoscopic bias and interpolation bias. To address these issues, we propose QLIP, a drop-in replacement for CLIP that can be seamlessly integrated with existing MLLMs with only a few lines of code and can enhance both coarse-grained and fine-grained visual understanding, without re-training. QLIP is designed around an image quadtree which replaces the standard uniform grid patches with a novel content aware patchification. Our experimental results demonstrate that QLIP improves the general visual question answering accuracy of the LLaVA v1.5 model series across various model sizes--without requiring retraining or fine-tuning of the full MLLM. Notably, QLIP boosts detailed understanding performance on the challenging $V^{\ast}$ benchmark by up to 13.6 percent.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像を視覚トークンにエンコードし、視覚的およびテキスト的信号を共有潜在空間内で整列させ、クロスモーダル表現学習を容易にする。
CLIPモデルは、LLaVAのようなMLLMの開発において視覚エンコーダが重要な役割を果たした、広く採用されている基礎視覚言語モデルである。
しかし、CLIPビジョンエンコーダは、固定された入力解像度のみを扱うことへの制約や、異種画像に対する分離された埋め込みの生成に失敗したことなど、顕著な制限に悩まされている。
既存のモデルのビジョンエンコーダを置き換えることは通常、そのような変更はモデルパイプライン全体を再トレーニングする必要があるため、かなりの計算コストを発生させる。
本研究では,CLIPビジョンエンコーダの限界であるメソスコピックバイアスと補間バイアスの2つの要因を同定する。
これらの問題に対処するために、QLIPを提案する。これはCLIPのドロップイン代替で、数行のコードだけで既存のMLLMとシームレスに統合でき、粗粒度と細粒度の両方の視覚的理解を、再トレーニングすることなく拡張できる。
QLIPはイメージクワッドツリーを中心に設計されており、標準の統一グリッドパッチを新しいコンテンツ意識のパッチで置き換える。
実験の結果、QLIPはLLaVA v1.5モデルシリーズの様々なモデルサイズにおける一般的な視覚的質問応答精度を、フルMLLMの再トレーニングや微調整を必要とせずに改善することが示された。
特にQLIPは、挑戦的な$V^{\ast}$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
関連論文リスト
- Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Bridging Compressed Image Latents and Multimodal Large Language Models [45.83457913639876]
本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。