論文の概要: MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks
- arxiv url: http://arxiv.org/abs/2310.09036v1
- Date: Fri, 13 Oct 2023 11:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:23:59.649534
- Title: MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks
- Title(参考訳): MM-BigBench:マルチモーダルコンテンツ理解タスクにおけるマルチモーダルモデルの評価
- Authors: Xiaocui Yang, Wenfang Wu, Shi Feng, Ming Wang, Daling Wang, Yang Li,
Qi Sun, Yifei Zhang, Xiaoming Fu, Soujanya Poria
- Abstract要約: MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
- 参考スコア(独自算出の注目度): 56.60050181186531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popularity of multimodal large language models (MLLMs) has triggered a
recent surge in research efforts dedicated to evaluating these models.
Nevertheless, existing evaluation studies of MLLMs primarily focus on the
comprehension and reasoning of unimodal (vision) content, neglecting
performance evaluations in the domain of multimodal (vision-language) content
understanding. Beyond multimodal reasoning, tasks related to multimodal content
comprehension necessitate a profound understanding of multimodal contexts,
achieved through the multimodal interaction to obtain a final answer. In this
paper, we introduce a comprehensive assessment framework called MM-BigBench,
which incorporates a diverse range of metrics to offer an extensive evaluation
of the performance of various models and instructions across a wide spectrum of
diverse multimodal content comprehension tasks. Consequently, our work
complements research on the performance of MLLMs in multimodal comprehension
tasks, achieving a more comprehensive and holistic evaluation of MLLMs. To
begin, we employ the Best Performance metric to ascertain each model's
performance upper bound on different datasets. Subsequently, the Mean Relative
Gain metric offers an assessment of the overall performance of various models
and instructions, while the Stability metric measures their sensitivity.
Furthermore, previous research centers on evaluating models independently or
solely assessing instructions, neglecting the adaptability between models and
instructions. We propose the Adaptability metric to quantify the adaptability
between models and instructions. Our paper evaluates a total of 20 language
models (14 MLLMs) on 14 multimodal datasets spanning 6 tasks, with 10
instructions for each task, and derives novel insights. Our code will be
released at https://github.com/declare-lab/MM-BigBench.
- Abstract(参考訳): MLLM(Multimodal large language model)の人気は、これらのモデルを評価するための研究努力が近年急増している。
それにもかかわらず、mllmの既存の評価研究は、主にユニモーダル(視覚)コンテンツの理解と推論に焦点を当て、マルチモーダル(視覚言語)コンテンツ理解の領域における性能評価を無視している。
マルチモーダル推論以外にも、マルチモーダルコンテンツ理解に関わるタスクは、マルチモーダル相互作用を通じて最終的な答えを得るために、マルチモーダルコンテキストの深い理解を必要とする。
本稿では,mm-bigbenchと呼ばれる包括的評価フレームワークについて紹介する。多種多様なメトリクスを取り入れ,多様なマルチモーダルコンテンツ理解タスクにまたがる様々なモデルや命令の性能を広範囲に評価する。
その結果、マルチモーダル理解タスクにおけるMLLMの性能に関する研究を補完し、MLLMのより包括的で総合的な評価を実現した。
まず、各モデルのパフォーマンスを異なるデータセットの上限で確認するために、最高のパフォーマンスメトリクスを使用します。
その後、平均相対ゲインメトリックは、様々なモデルと指示の全体的なパフォーマンスを評価するが、安定性メトリックはそれらの感度を測定する。
さらに、従来の研究は、モデルと命令の適応性を無視し、個別または単独で指示を評価することに集中している。
モデルと命令間の適応性を定量化する適応性指標を提案する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
私たちのコードはhttps://github.com/declare-lab/MM-BigBench.comでリリースされます。
関連論文リスト
- MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - IWISDM: Assessing instruction following in multimodal models at scale [1.2320972303448239]
我々は,視覚言語タスクの無制限な配列を生成するために,指示された仮想VISual Decision Making (iWISDM)環境を紹介する。
iWISDMを用いて,様々な複雑性レベルにわたる視覚課題に追従する命令の3つの異なるベンチマークをコンパイルした。
本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守性を評価するための頑健なベンチマークとしてiWISDMを確立した。
論文 参考訳(メタデータ) (2024-06-20T14:09:54Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。