論文の概要: M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2405.15638v1
- Date: Fri, 24 May 2024 15:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:30:40.295624
- Title: M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models
- Title(参考訳): M4U:大規模マルチモーダルモデルの多言語理解と推論の評価
- Authors: Hongyu Wang, Jiayu Xu, Senwei Xie, Ruiping Wang, Jialin Li, Zhaojie Xie, Bin Zhang, Chuyan Xiong, Xilin Chen,
- Abstract要約: M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。
M4Uは、中国語、英語、ドイツ語の科学、工学、医療の分野で64の分野をカバーする8,931のサンプルを含んでいる。
M4Uを用いて,LMM(Large Multimodal Models)とLLM(Large Language Models)を外部ツールで評価する。
- 参考スコア(独自算出の注目度): 27.18427414844769
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual multimodal reasoning is a core component in achieving human-level intelligence. However, most existing benchmarks for multilingual multimodal reasoning struggle to differentiate between models of varying performance; even language models without visual capabilities can easily achieve high scores. This leaves a comprehensive evaluation of leading multilingual multimodal models largely unexplored. In this work, we introduce M4U, a novel and challenging benchmark for assessing the capability of multi-discipline multilingual multimodal understanding and reasoning. M4U contains 8,931 samples covering 64 disciplines across 16 subfields in Science, Engineering, and Healthcare in Chinese, English, and German. Using M4U, we conduct extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs) with external tools. The evaluation results show that the state-of-the-art model, GPT-4o, achieves only 47.6% average accuracy on M4U. Additionally, we observe that the leading LMMs exhibit significant language preferences. Our in-depth analysis indicates that leading LMMs, including GPT-4o, suffer performance degradation when prompted with cross-lingual multimodal questions, such as images with key textual information in Chinese while the question is in German. We believe that M4U can serve as a crucial tool for systematically evaluating LMMs based on their multilingual multimodal reasoning capabilities and monitoring their development. The homepage, codes and data are public available.
- Abstract(参考訳): 多言語多モーダル推論は、人間レベルの知性を達成するための中核的な要素である。
しかし、既存の多言語マルチモーダル推論のベンチマークでは、様々な性能のモデル間の区別が困難であり、視覚能力のない言語モデルでさえ、高いスコアを容易に得ることができる。
このことは、主要な多言語マルチモーダルモデルの包括的評価をほとんど探索されていないまま残している。
本稿では,多分野多言語マルチモーダル理解と推論の能力を評価するための,新しい,挑戦的なベンチマークであるM4Uを紹介する。
M4Uは、中国語、英語、ドイツ語の科学、工学、医療の分野で64の分野をカバーする8,931のサンプルを含んでいる。
M4Uを用いて,LMM(Large Multimodal Models)とLLM(Large Language Models)を外部ツールで評価する。
その結果,最新技術モデルであるGPT-4oは,M4Uの平均精度は47.6%に過ぎなかった。
さらに,先行するLMMが言語嗜好に有意な影響を与えていることも確認した。
GPT-4oを含む先行LMMは、中国語で重要なテキスト情報を持つ画像など、言語横断的な多モーダルな質問を誘発することで、性能劣化を被ることを示す。
我々は,M4Uが多言語マルチモーダル推論能力に基づいてLMMを体系的に評価し,開発を監視する上で重要なツールであると考えている。
ホームページ、コード、データは公開されています。
関連論文リスト
- Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。