論文の概要: Multi: Multimodal Understanding Leaderboard with Text and Images
- arxiv url: http://arxiv.org/abs/2402.03173v1
- Date: Mon, 5 Feb 2024 16:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:56:17.745299
- Title: Multi: Multimodal Understanding Leaderboard with Text and Images
- Title(参考訳): multi: テキストと画像を用いたマルチモーダル理解用リーダーボード
- Authors: Zichen Zhu, Yang Xu, Lu Chen, Jingkai Yang, Yichuan Ma, Yiming Sun,
Hailin Wen, Jiaqi Liu, Jinyu Cai, Yingzi Ma, Situo Zhang, Zihan Zhao,
Liangtai Sun, Kai Yu
- Abstract要約: Multiは、複雑な数字や表、科学的な質問に対するMLLMの評価のための最先端のベンチマークである。
公式の導出から画像の詳細分析、モダリティ間の推論まで、さまざまなタスクでMLLMに挑戦する。
また,MLLMの超越性をテストするための500問サブセットであるMulti-Eliteと,4500以上の知識部品を用いたIn-Context Learning研究を強化するMulti-Extendも導入した。
- 参考スコア(独自算出の注目度): 24.580401463432075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid progress in multimodal large language models (MLLMs) highlights the
need to introduce challenging yet realistic benchmarks to the academic
community. Existing benchmarks primarily focus on simple natural image
understanding, but Multi emerges as a cutting-edge benchmark for MLLMs,
offering a comprehensive dataset for evaluating MLLMs against understanding
complex figures and tables, and scientific questions. This benchmark,
reflecting current realistic examination styles, provides multimodal inputs and
requires responses that are either precise or open-ended, similar to real-life
school tests. It challenges MLLMs with a variety of tasks, ranging from formula
derivation to image detail analysis, and cross-modality reasoning. Multi
includes over 18,000 questions, with a focus on science-based QA in diverse
formats. We also introduce Multi-Elite, a 500-question subset for testing the
extremities of MLLMs, and Multi-Extend, which enhances In-Context Learning
research with more than 4,500 knowledge pieces. Our evaluation indicates
significant potential for MLLM advancement, with GPT-4V achieving a 63.7%
accuracy rate on Multi, in contrast to other MLLMs scoring between 31.3% and
53.7%. Multi serves not only as a robust evaluation platform but also paves the
way for the development of expert-level AI.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩は、学術コミュニティに挑戦的で現実的なベンチマークを導入する必要性を強調している。
既存のベンチマークは主に単純な自然画像の理解に重点を置いているが、MultiはMLLMの最先端のベンチマークとして登場し、複雑な数字や表の理解や科学的問題に対するMLLMの評価のための包括的なデータセットを提供する。
このベンチマークは、現在の現実的な試験スタイルを反映し、マルチモーダルな入力を提供し、実際の学校のテストと同様、正確またはオープンな応答を必要とする。
公式の導出から画像の詳細分析、モダリティ間の推論まで、さまざまなタスクでMLLMに挑戦する。
Multiには18,000以上の質問が含まれており、様々な形式で科学ベースのQAに焦点を当てている。
また,MLLMの超越性をテストするための500問サブセットであるMulti-Eliteと,4500以上の知識部品を用いたIn-Context Learning研究を強化するMulti-Extendも導入した。
gpt-4vはマルチで63.7%の精度を達成し、他のmllmでは31.3%から53.7%の精度を示した。
Multiは堅牢な評価プラットフォームとして機能するだけでなく、エキスパートレベルのAIを開発するための道を開く。
関連論文リスト
- MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Towards Multimodal In-Context Learning for Vision & Language Models [17.94596325418465]
本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with
Vision-Language Benchmark [43.07531186686455]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking のタスクにおいて, 人間の嗜好とは大きく異なっていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。