論文の概要: LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer
- arxiv url: http://arxiv.org/abs/2412.13871v2
- Date: Wed, 19 Mar 2025 10:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:08.258115
- Title: LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer
- Title(参考訳): LLaVA-UHD v2:階層型ウィンドウ変換器による高分解能セマンティックピラミッドの統合MLLM
- Authors: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Xiaoying Zhang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun,
- Abstract要約: 視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
- 参考スコア(独自算出の注目度): 110.39467860530819
- License:
- Abstract: Vision transformers (ViTs) are widely employed in multimodal large language models (MLLMs) for visual encoding. However, they exhibit inferior performance on tasks regarding fine-grained visual perception. We attribute this to the limitations of ViTs in capturing diverse multi-modal visual levels, such as low-level details. To address this issue, we present LLaVA-UHD v2, an MLLM with advanced perception abilities by introducing a well-designed vision-language projector, the Hierarchical window (Hiwin) transformer. Hiwin transformer enhances MLLM's ability to capture diverse multi-modal visual granularities, by incorporating our constructed high-resolution semantic pyramid. Specifically, Hiwin transformer comprises two key modules: (i) a visual detail injection module, which progressively injects low-level visual details into high-level language-aligned semantics features, thereby forming an inverse semantic pyramid (ISP), and (ii) a hierarchical window attention module, which leverages cross-scale windows to condense multi-level semantics from the ISP. Extensive experiments show that LLaVA-UHD v2 outperforms compared MLLMs on a wide range of benchmarks. Notably, our design achieves an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. All the data and code will be publicly available to facilitate future research.
- Abstract(参考訳): 視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
しかし、細粒度の視覚的知覚に関するタスクでは劣る性能を示す。
これは、低レベルの詳細など、多様なマルチモーダル視覚レベルをキャプチャする上でのViTの限界によるものである。
この問題に対処するために、よく設計された視覚言語プロジェクタである階層型ウィンドウ(Hiwin)変換器を導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことで、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
具体的には、ハイウィン変圧器は2つの重要な加群から構成される。
i)低レベルの視覚的詳細をハイレベルな言語対応セマンティクス機能に徐々に注入し、それによって逆セマンティクスピラミッド(ISP)を形成する視覚的詳細注入モジュール。
(II) マルチレベルセマンティクスをISPから凝縮するために, クロススケールウィンドウを活用する階層型ウィンドウアテンションモジュール。
大規模な実験により、LLaVA-UHD v2 は幅広いベンチマークで MLLM と比較された。
特に,14ベンチマークで平均3.7%向上し,DocVQAでは9.3%向上した。
すべてのデータとコードは、将来の研究を促進するために公開されます。
関連論文リスト
- OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。