論文の概要: LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
- arxiv url: http://arxiv.org/abs/2412.13871v1
- Date: Wed, 18 Dec 2024 14:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.26106
- Title: LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
- Title(参考訳): LLaVA-UHD v2:階層型ウィンドウ変換器による高分解能特徴ピラミッドの統合MLLM
- Authors: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun,
- Abstract要約: 本稿では,階層型ウィンドウトランスを中心とした高度なMLLMであるLLaVA-UHD v2を紹介する。
視覚言語プロジェクターとして、ハイウィン変換器は2つの主モジュールから構成される。
大規模な実験により、LLaVA-UHD v2は、一般的なベンチマーク上で既存のMLLMよりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 109.61952368100756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では視覚変換器(ViT)が視覚符号化に広く用いられている。
しかし、ユニバーサルMLLMタスクの解法におけるそれらの性能は満足できない。
我々は,多様な視覚レベルからの情報不足が,言語生成に必要な様々な意味的粒度との整合を阻害していると考えている。
この問題に対処するために,階層型ウィンドウ変換器を中心とした高度なMLLMであるLLaVA-UHD v2を提案する。
視覚言語プロジェクタとして、Hiwin Transformerは2つの主要なモジュールから構成される。
一 画像ピラミッドからの高周波の詳細を利用して、VT由来の特徴アップサンプリングにより構築した逆特徴ピラミッド
(II)階層型ウィンドウアテンションは,マルチレベル特徴マップを凝縮するために,クロススケールウィンドウ内のキーサンプリング機能に焦点をあてる。
大規模な実験により、LLaVA-UHD v2は、一般的なベンチマーク上で既存のMLLMよりも優れた性能を発揮することが示された。
特に、我々の設計では14のベンチマークで平均3.7%向上し、DocVQAでは9.3%向上した。
将来の研究を促進するために、すべてのデータ、モデルチェックポイント、コードを公開しています。
関連論文リスト
- The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer [68.71557348281007]
本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。
事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。
我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
論文 参考訳(メタデータ) (2025-04-14T17:50:20Z) - REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文 参考訳(メタデータ) (2025-03-10T14:59:14Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。