論文の概要: LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs
- arxiv url: http://arxiv.org/abs/2507.00505v1
- Date: Tue, 01 Jul 2025 07:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.459923
- Title: LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs
- Title(参考訳): LLaVA-SP:MLLMのための視覚空間トークンによる視覚表現の強化
- Authors: Haoran Lou, Chunxiao Fan, Ziyan Liu, Yuexin Wu, Xinxiang Wang,
- Abstract要約: 本稿では,視覚的空間トークンをViTパッチの特徴から導出するために,畳み込みカーネルを用いた新しいプロジェクタを提案する。
LLaVA-SP-CroppingとLLaVA-SP-Poolingは適応的なプールによってグローバルなセマンティクスをキャプチャする。
- 参考スコア(独自算出の注目度): 3.7336554275205898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The architecture of multimodal large language models (MLLMs) commonly connects a vision encoder, often based on CLIP-ViT, to a large language model. While CLIP-ViT works well for capturing global image features, it struggles to model local relationships between adjacent patches, leading to weaker visual representation, which in turn affects the detailed understanding ability of MLLMs. To solve this, we propose LLaVA-SP, which \textbf{ only adds six spatial visual tokens} to the original visual tokens to enhance the visual representation. Our approach offers three key advantages: 1)We propose a novel Projector, which uses convolutional kernels to derive visual spatial tokens from ViT patch features, simulating two visual spatial ordering approaches: ``from central region to global" and ``from abstract to specific". Then, a cross-attention mechanism is applied to fuse fine-grained visual information, enriching the overall visual representation. 2) We present two model variants: LLaVA-SP-Cropping, which focuses on detail features through progressive cropping, and LLaVA-SP-Pooling, which captures global semantics through adaptive pooling, enabling the model to handle diverse visual understanding tasks. 3) Extensive experiments show that LLaVA-SP, fine-tuned with LoRA, achieves significant performance improvements across various multimodal benchmarks, outperforming the state-of-the-art LLaVA-1.5 model in multiple tasks with nearly identical inference latency. The code and models are available at \href{https://github.com/CnFaker/LLaVA-SP}{\texttt{https://github.com/CnFaker/LLaVA-SP}}.
- Abstract(参考訳): MLLM(Multimodal large language model)のアーキテクチャは一般的に、CLIP-ViTをベースとしたビジョンエンコーダを大きな言語モデルに接続する。
CLIP-ViTはグローバルな画像の特徴を捉えるのにうまく機能するが、隣接するパッチ間の局所的な関係をモデル化するのに苦労し、視覚的表現が弱くなり、MLLMの詳細な理解能力に影響を及ぼす。
この問題を解決するために,LLaVA-SPを提案する。このLLaVA-SPは,従来の視覚トークンに6つの空間的視覚トークンのみを付加し,視覚的表現を強化する。
提案するプロジェクタは,視覚的空間的トークンをViTパッチの特徴から導出し,2つの視覚的空間的順序付けアプローチをシミュレートする。
そして、細粒度の視覚情報を融合させ、全体の視覚表現を豊かにするクロスアテンション機構を適用する。
2) LLaVA-SP-Cropping,LLaVA-SP-Pooling,LLaVA-SP-Pooling,LLaVA-SP-Pooling,LLaVA-SP-Pooling,LLaVA-SP-Pooli ng,LLaVA-SP-Poolingの2つのモデルモデルを提案する。
3) LLaVA-SPはLoRAで微調整され, 様々なマルチモーダルベンチマークで大幅な性能向上を実現し, ほぼ同一の推論遅延を伴う複数のタスクにおいて, 最先端のLLaVA-1.5モデルよりも優れていた。
コードとモデルは \href{https://github.com/CnFaker/LLaVA-SP}{\textt{https://github.com/CnFaker/LLaVA-SP}} で公開されている。
関連論文リスト
- LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-15T17:55:22Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。