論文の概要: LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
- arxiv url: http://arxiv.org/abs/2412.13871v1
- Date: Wed, 18 Dec 2024 14:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:55.299790
- Title: LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
- Title(参考訳): LLaVA-UHD v2:階層型ウィンドウ変換器による高分解能特徴ピラミッドの統合MLLM
- Authors: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun,
- Abstract要約: 本稿では,階層型ウィンドウトランスを中心とした高度なMLLMであるLLaVA-UHD v2を紹介する。
視覚言語プロジェクターとして、ハイウィン変換器は2つの主モジュールから構成される。
大規模な実験により、LLaVA-UHD v2は、一般的なベンチマーク上で既存のMLLMよりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 109.61952368100756
- License:
- Abstract: In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では視覚変換器(ViT)が視覚符号化に広く用いられている。
しかし、ユニバーサルMLLMタスクの解法におけるそれらの性能は満足できない。
我々は,多様な視覚レベルからの情報不足が,言語生成に必要な様々な意味的粒度との整合を阻害していると考えている。
この問題に対処するために,階層型ウィンドウ変換器を中心とした高度なMLLMであるLLaVA-UHD v2を提案する。
視覚言語プロジェクタとして、Hiwin Transformerは2つの主要なモジュールから構成される。
一 画像ピラミッドからの高周波の詳細を利用して、VT由来の特徴アップサンプリングにより構築した逆特徴ピラミッド
(II)階層型ウィンドウアテンションは,マルチレベル特徴マップを凝縮するために,クロススケールウィンドウ内のキーサンプリング機能に焦点をあてる。
大規模な実験により、LLaVA-UHD v2は、一般的なベンチマーク上で既存のMLLMよりも優れた性能を発揮することが示された。
特に、我々の設計では14のベンチマークで平均3.7%向上し、DocVQAでは9.3%向上した。
将来の研究を促進するために、すべてのデータ、モデルチェックポイント、コードを公開しています。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。