論文の概要: LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.07895v1
- Date: Wed, 10 Jul 2024 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:33:18.712945
- Title: LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
- Title(参考訳): LLaVA-NeXTインターリーブ:大規模マルチモーダルモデルにおけるマルチイメージ・ビデオ・3次元処理
- Authors: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li,
- Abstract要約: LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
- 参考スコア(独自算出の注目度): 70.2997884478129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT
- Abstract(参考訳): ビジュアル・インストラクション・チューニングはLMM(Large Multimodal Models)の能力向上に大きく貢献している。
しかし、既存のオープンLMMは、主にシングルイメージタスクに焦点を合わせており、それらのマルチイメージシナリオへの応用は、まだ検討されていない。
さらに、以前のLMM研究では、異なるシナリオに別々に取り組み、新たな機能を持つクロスシナリオを一般化することは不可能である。
この目的のために,LMMにおけるマルチイメージ,マルチフレーム(ビデオ),マルチビュー(3D),マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを導入する。
これらの機能を実現するために、インターリーブされたデータフォーマットを一般的なテンプレートとみなし、1,177.6kのサンプルでM4-Instructデータセットをコンパイルし、14のタスクと41のデータセットで4つのプライマリドメインにまたがる。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
大規模な実験を通じて、LLaVA-NeXT-Interleaveは、マルチイメージ、ビデオ、および3Dベンチマークにおいて、シングルイメージタスクのパフォーマンスを維持しながら、主要な結果を達成する。
さらに、当社のモデルは、例えば、異なる設定やモダリティ間でタスクを転送するといった、いくつかの新興機能も備えています。
コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで入手できる。
関連論文リスト
- MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
MIBenchは、マルチイメージ・インストラクション(MII)、マルチモーダル・ナレッジ・シーキング(MKS)、マルチモーダル・イン・コンテクスト・ラーニング(MIC)の3つのシナリオに分類し、13のタスクを合計13Kの注釈付きサンプルで構成する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある汎用的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T12:04:11Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - 4M: Massively Multimodal Masked Modeling [20.69496647914175]
現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。