論文の概要: LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
- arxiv url: http://arxiv.org/abs/2403.11703v1
- Date: Mon, 18 Mar 2024 12:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:28:10.281130
- Title: LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
- Title(参考訳): LLaVA-UHD:任意のアスペクト比と高解像度画像を認識するLMM
- Authors: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang,
- Abstract要約: LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
- 参考スコア(独自算出の注目度): 119.24323184581974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.
- Abstract(参考訳): ビジュアルエンコーディングは、視覚世界を理解するための大規模なマルチモーダルモデル(LMM)の基礎を構成する。
従来のLMMは画像のサイズや解像度が一定であるのに対して、この方向の最近の探索は適応性、効率、正確性に制限されている。
本稿ではまず GPT-4V と LLaVA-1.5 を代表例とし,その視覚的符号化戦略に根ざした系統的欠陥を明らかにする。
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
LLaVA-UHDには、3つの重要な要素がある:(1) ネイティブ解像度の画像をより小さく可変サイズのスライスに分割して効率よく拡張可能な符号化を行う画像モジュール化戦略、(2) 画像トークンをビジュアルエンコーダからさらに凝縮する圧縮モジュール、(3) LLMのスライストークンを整理する空間スキーマ。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
特に,LLaVA-1.5 336x336上に構築したモデルでは,わずか94%の推論計算を用いて6倍の解像度画像(すなわち672x1088)をサポートし,TextVQAの6.4の精度向上を実現している。
さらに、このモデルは、A100GPU8基(LLaVA-1.5の26時間)で23時間以内に、学術的な環境で効率的にトレーニングすることができる。
データとコードはhttps://github.com/thunlp/LLaVA-UHD.comで公開しています。
関連論文リスト
- AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - On Speculative Decoding for Multimodal Large Language Models [11.245862832561176]
MLLM(Multimodal Large Language Models)による推論は,大規模な言語モデルのバックボーンのため遅い。
言語のみのモデルがLLaVA 7Bを用いて投機的復号化のための優れたドラフトモデルとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-13T00:02:36Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。