論文の概要: KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context
- arxiv url: http://arxiv.org/abs/2604.13058v1
- Date: Wed, 18 Mar 2026 01:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.64548
- Title: KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context
- Title(参考訳): KMMMU:韓国語と文脈における多分野多モーダル理解の評価
- Authors: Nahyun Lee, Guijin Son, Hyunwoo Ko, Chanyoung Kim, JunYoung An, Kyubeen Han, Il-Youp Kwak,
- Abstract要約: KMMMUは,韓国の文化的・制度的環境におけるマルチモーダル理解を評価するための,韓国のネイティブベンチマークである。
KMMMUには、韓国語で書かれた試験から3,466の質問が含まれており、9つの規律と9つの視覚的モダリティのカテゴリ、300石の韓国固有のサブセットと627の難しいサブセットを含んでいる。
実験によると、最強のオープンソースモデルはフルセットで42.05%の精度でしか到達せず、最高のプロプライエタリモデルはハードサブセットで52.42%の精度で達成されている。
- 参考スコア(独自算出の注目度): 8.518732134730355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KMMMU, a native Korean benchmark for evaluating multimodal understanding in Korean cultural and institutional settings. KMMMU contains 3,466 questions from exams natively written in Korean, covering nine disciplines and nine visual modality categories, along with a 300-item Korean-specific subset and a hard subset of 627 questions. Unlike translated or English-centric benchmarks, KMMMU targets information-dense problems shaped by local conventions, official standards, and discipline-specific visual formats. Experiments show that the strongest open-source model reaches only 42.05% accuracy on the full set, while the best proprietary model achieves 52.42% on the hard subset. Performance varies across disciplines, with some disciplines emerging as bottlenecks, and Korean-specific questions showing gaps of up to 13.43%. Error analysis suggests that these failures stem less from insufficient reasoning depth than from weak convention-to-label mapping, few-shot symbolic induction, localized knowledge recall, and domain-specific standards understanding. KMMMU provides a testbed for multimodal evaluation beyond English-centric benchmarks and for developing more reliable systems for expert real-world tasks.
- Abstract(参考訳): KMMMUは,韓国の文化的・制度的環境におけるマルチモーダル理解を評価するための,韓国のネイティブベンチマークである。
KMMMUには、韓国語で書かれた試験から3,466の質問が含まれており、9つの規律と9つの視覚的モダリティのカテゴリ、300テムの韓国固有のサブセットと627の難しいサブセットを含んでいる。
翻訳または英語中心のベンチマークとは異なり、KMMMUはローカルな慣習、公式標準、および規律固有の視覚形式によって形成される情報密度の問題をターゲットにしている。
実験によると、最強のオープンソースモデルはフルセットで42.05%の精度でしか到達せず、最高のプロプライエタリモデルはハードサブセットで52.42%の精度で達成されている。
パフォーマンスは分野によって異なり、いくつかの分野はボトルネックとして現れ、韓国固有の質問は最大13.43%のギャップを示している。
誤り分析は、これらの失敗は、弱いコンベンションとラベルのマッピング、少数ショットのシンボリックインジェクション、局所的な知識リコール、ドメイン固有の標準理解よりも、推論の深さが不十分であることを示している。
KMMMUは、英語中心のベンチマークを超えるマルチモーダル評価と、専門家の現実世界タスクのためのより信頼性の高いシステムを開発するためのテストベッドを提供する。
関連論文リスト
- CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context [8.678622777553267]
CAPITUは、ブラジルポルトガル語でLLM(Large Language Models)の命令追従能力を評価するためのベンチマークである。
ベンチマークは59の命令タイプを7つのカテゴリに分類し、すべて自動的に検証できるように設計されている。
シングルターンおよびマルチターン設定における18の最先端モデルを評価する。
論文 参考訳(メタデータ) (2026-03-23T21:16:54Z) - KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models [36.90941464587649]
本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。
事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
論文 参考訳(メタデータ) (2025-10-17T11:45:15Z) - SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala [39.525952729268994]
SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。
このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。
SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
論文 参考訳(メタデータ) (2025-09-03T09:22:39Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。
韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。
韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文 参考訳(メタデータ) (2025-05-22T02:03:07Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。