論文の概要: LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.07895v2
- Date: Sun, 28 Jul 2024 19:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:51:41.974720
- Title: LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
- Title(参考訳): LLaVA-NeXTインターリーブ:大規模マルチモーダルモデルにおけるマルチイメージ・ビデオ・3次元処理
- Authors: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li,
- Abstract要約: LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
- 参考スコア(独自算出の注目度): 70.2997884478129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT
- Abstract(参考訳): ビジュアル・インストラクション・チューニングはLMM(Large Multimodal Models)の能力向上に大きく貢献している。
しかし、既存のオープンLMMは、主にシングルイメージタスクに焦点を合わせており、それらのマルチイメージシナリオへの応用は、まだ検討されていない。
さらに、以前のLMM研究では、異なるシナリオに別々に取り組み、新たな機能を持つクロスシナリオを一般化することは不可能である。
この目的のために,LMMにおけるマルチイメージ,マルチフレーム(ビデオ),マルチビュー(3D),マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを導入する。
これらの機能を実現するために、インターリーブされたデータフォーマットを一般的なテンプレートとみなし、1,177.6kのサンプルでM4-Instructデータセットをコンパイルし、14のタスクと41のデータセットで4つのプライマリドメインにまたがる。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
大規模な実験を通じて、LLaVA-NeXT-Interleaveは、マルチイメージ、ビデオ、および3Dベンチマークにおいて、シングルイメージタスクのパフォーマンスを維持しながら、主要な結果を達成する。
さらに、当社のモデルは、例えば、異なる設定やモダリティ間でタスクを転送するといった、いくつかの新興機能も備えています。
コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで入手できる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - LLaVA-OneVision: Easy Visual Task Transfer [79.36225099277112]
LLaVA-OneVisionは、オープンな大規模マルチモーダルモデル(LMM)のファミリーであり、データ、モデル、視覚表現に関する洞察を統合することで開発されている。
実験の結果,LLaVA-OneVisionはオープンLMMの性能境界を同時に押し上げることのできる最初の単一モデルであることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:59:44Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T12:04:11Z) - 4M: Massively Multimodal Masked Modeling [20.69496647914175]
現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。