論文の概要: Multi: Multimodal Understanding Leaderboard with Text and Images
- arxiv url: http://arxiv.org/abs/2402.03173v1
- Date: Mon, 5 Feb 2024 16:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:56:17.745299
- Title: Multi: Multimodal Understanding Leaderboard with Text and Images
- Title(参考訳): multi: テキストと画像を用いたマルチモーダル理解用リーダーボード
- Authors: Zichen Zhu, Yang Xu, Lu Chen, Jingkai Yang, Yichuan Ma, Yiming Sun,
Hailin Wen, Jiaqi Liu, Jinyu Cai, Yingzi Ma, Situo Zhang, Zihan Zhao,
Liangtai Sun, Kai Yu
- Abstract要約: Multiは、複雑な数字や表、科学的な質問に対するMLLMの評価のための最先端のベンチマークである。
公式の導出から画像の詳細分析、モダリティ間の推論まで、さまざまなタスクでMLLMに挑戦する。
また,MLLMの超越性をテストするための500問サブセットであるMulti-Eliteと,4500以上の知識部品を用いたIn-Context Learning研究を強化するMulti-Extendも導入した。
- 参考スコア(独自算出の注目度): 24.580401463432075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid progress in multimodal large language models (MLLMs) highlights the
need to introduce challenging yet realistic benchmarks to the academic
community. Existing benchmarks primarily focus on simple natural image
understanding, but Multi emerges as a cutting-edge benchmark for MLLMs,
offering a comprehensive dataset for evaluating MLLMs against understanding
complex figures and tables, and scientific questions. This benchmark,
reflecting current realistic examination styles, provides multimodal inputs and
requires responses that are either precise or open-ended, similar to real-life
school tests. It challenges MLLMs with a variety of tasks, ranging from formula
derivation to image detail analysis, and cross-modality reasoning. Multi
includes over 18,000 questions, with a focus on science-based QA in diverse
formats. We also introduce Multi-Elite, a 500-question subset for testing the
extremities of MLLMs, and Multi-Extend, which enhances In-Context Learning
research with more than 4,500 knowledge pieces. Our evaluation indicates
significant potential for MLLM advancement, with GPT-4V achieving a 63.7%
accuracy rate on Multi, in contrast to other MLLMs scoring between 31.3% and
53.7%. Multi serves not only as a robust evaluation platform but also paves the
way for the development of expert-level AI.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩は、学術コミュニティに挑戦的で現実的なベンチマークを導入する必要性を強調している。
既存のベンチマークは主に単純な自然画像の理解に重点を置いているが、MultiはMLLMの最先端のベンチマークとして登場し、複雑な数字や表の理解や科学的問題に対するMLLMの評価のための包括的なデータセットを提供する。
このベンチマークは、現在の現実的な試験スタイルを反映し、マルチモーダルな入力を提供し、実際の学校のテストと同様、正確またはオープンな応答を必要とする。
公式の導出から画像の詳細分析、モダリティ間の推論まで、さまざまなタスクでMLLMに挑戦する。
Multiには18,000以上の質問が含まれており、様々な形式で科学ベースのQAに焦点を当てている。
また,MLLMの超越性をテストするための500問サブセットであるMulti-Eliteと,4500以上の知識部品を用いたIn-Context Learning研究を強化するMulti-Extendも導入した。
gpt-4vはマルチで63.7%の精度を達成し、他のmllmでは31.3%から53.7%の精度を示した。
Multiは堅牢な評価プラットフォームとして機能するだけでなく、エキスパートレベルのAIを開発するための道を開く。
関連論文リスト
- Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models [27.18427414844769]
M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。
M4Uは、中国語、英語、ドイツ語の科学、工学、医療の分野で64の分野をカバーする8,931のサンプルを含んでいる。
M4Uを用いて,LMM(Large Multimodal Models)とLLM(Large Language Models)を外部ツールで評価する。
論文 参考訳(メタデータ) (2024-05-24T15:25:28Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - An Improved Traditional Chinese Evaluation Suite for Foundation Model [15.669799471464676]
従来の中国語理解のための新しいベンチマークTMMLU+を提案する。
小学校から専門職まで66名の被験者を対象とする多票質問回答データセットである。
我々はまた、1.8Bから72Bまでのパラメータのクローズドソースモデルと26のオープンウェイト中国語大言語モデル(LLM)をベンチマークした。
論文 参考訳(メタデータ) (2024-03-04T09:13:33Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。