論文の概要: MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs
- arxiv url: http://arxiv.org/abs/2406.11833v2
- Date: Tue, 29 Oct 2024 12:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:07.804835
- Title: MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs
- Title(参考訳): MMDU:LVLMのベンチマークとインストラクションチューニングデータセット
- Authors: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang,
- Abstract要約: 本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
- 参考スコア(独自算出の注目度): 88.28014831467503
- License:
- Abstract: Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.
- Abstract(参考訳): マルチモーダルな人間の入力と通信するための自然および有意義な応答を生成することは、LVLM(Large Vision-Language Models)の基本的能力である。
現在のオープンソースのLVLMは、シングルターンシングルイメージ入力のような単純なシナリオでは有望な性能を示すが、マルチターンとマルチイメージの長いコンテキスト履歴における命令に従うような現実世界の会話シナリオでは不十分である。
既存のLVLMベンチマークは主に、現実世界の人間とAIのインタラクションアプリケーションにおいてLVLMの能力を適切に評価しない単一選択の質問やショートフォームの応答に焦点を当てている。
そこで我々は,総合的なベンチマークであるMMDUと,マルチターンおよびマルチイメージ会話におけるLVLMの能力の評価と改善を目的とした大規模命令チューニングデータセットMMDU-45kを紹介する。
我々は、クラスタリングアルゴリズムを用いて、オープンソースウィキペディアから関連する画像とテキスト記述を抽出し、GPT-4oモデルの助けを借りて、人間のアノテータによる質問応答ペアを構築する。
MMDUは最大18kイメージ+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークよりも少なくとも5倍長く、現在のLVLMに課題をもたらす。
MMDUを用いた15の代表的なLVLMの詳細な分析により,LVLMは限定的な対話型指導チューニングデータにより,オープンソースであるLVLMがクローズドソースに遅れていることが明らかとなった。
MMDU-45k上のフネチューニングオープンソースLVLMは、このギャップに対処し、より長く正確な会話を生成し、MMDUおよび既存のベンチマーク(MMStar: +1.1%、MathVista: +1.5%、ChartQA:+1.2%)のスコアを改善することを実証する。
私たちのコントリビューションは、現在のLVLMモデルと現実世界のアプリケーション要求のギャップを埋める道を開いたものです。
このプロジェクトはhttps://github.com/Liuziyu77/MMDU.comで入手できる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。