論文の概要: M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models
- arxiv url: http://arxiv.org/abs/2306.05179v2
- Date: Fri, 10 Nov 2023 04:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:03:16.742405
- Title: M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models
- Title(参考訳): M3Exam: 大規模言語モデルを調べるための多言語・マルチモーダル・マルチレベルベンチマーク
- Authors: Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia,
Lidong Bing
- Abstract要約: M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
- 参考スコア(独自算出の注目度): 76.88692952308084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the existence of various benchmarks for evaluating natural language
processing models, we argue that human exams are a more suitable means of
evaluating general intelligence for large language models (LLMs), as they
inherently demand a much wider range of abilities such as language
understanding, domain knowledge, and problem-solving skills. To this end, we
introduce M3Exam, a novel benchmark sourced from real and official human exam
questions for evaluating LLMs in a multilingual, multimodal, and multilevel
context. M3Exam exhibits three unique characteristics: (1) multilingualism,
encompassing questions from multiple countries that require strong multilingual
proficiency and cultural knowledge; (2) multimodality, accounting for the
multimodal nature of many exam questions to test the model's multimodal
understanding capability; and (3) multilevel structure, featuring exams from
three critical educational periods to comprehensively assess a model's
proficiency at different levels. In total, M3Exam contains 12,317 questions in
9 diverse languages with three educational levels, where about 23\% of the
questions require processing images for successful solving. We assess the
performance of top-performing LLMs on M3Exam and find that current models,
including GPT-4, still struggle with multilingual text, particularly in
low-resource and non-Latin script languages. Multimodal LLMs also perform
poorly with complex multimodal questions. We believe that M3Exam can be a
valuable resource for comprehensively evaluating LLMs by examining their
multilingual and multimodal abilities and tracking their development. Data and
evaluation code is available at \url{https://github.com/DAMO-NLP-SG/M3Exam}.
- Abstract(参考訳): 自然言語処理モデルを評価するための様々なベンチマークが存在するにもかかわらず、人間試験は、言語理解、ドメイン知識、問題解決スキルなど、より広い範囲の能力を要求するため、大規模言語モデル(llm)のための汎用知性を評価するより適切な方法であると主張する。
この目的のために,多言語,マルチモーダル,多レベル環境においてllmを評価するための,実および公式の人間試験質問から得られた新しいベンチマークであるm3examを紹介する。
M3Examは,(1)多言語能力と文化的知識を必要とする複数の国からの質問を包含する多言語主義,(2)多モーダル性,2)モデルの多モーダル理解能力をテストするための多くの試験質問の多モーダル性,3)3つの重要な教育期間の試験を包括的に評価する多段階構造,の3つの特徴を示す。
合計で、m3examは3つの教育レベルを持つ9つの多様な言語で12,317の質問を含んでいる。
M3Exam上でのLLMの性能評価を行い、GPT-4を含む現在のモデルは、特に低リソースおよび非ラテン文字言語において、多言語テキストに苦戦している。
マルチモーダル LLM は複雑なマルチモーダル問題でも不十分である。
我々は,M3Examが多言語および多モーダルの能力を検証し,その開発を追跡することで,LLMを包括的に評価するための貴重な資源であると考えている。
データおよび評価コードは \url{https://github.com/DAMO-NLP-SG/M3Exam} で公開されている。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning [16.032320995230734]
CMMUは,中国語における多モーダル・多型質問理解と推論のための新しいベンチマークである。
CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。
本稿では,複数質問に対する位置誤差分散という評価手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T08:22:10Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。