論文の概要: Measuring Hong Kong Massive Multi-Task Language Understanding
- arxiv url: http://arxiv.org/abs/2505.02177v1
- Date: Sun, 04 May 2025 16:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.469584
- Title: Measuring Hong Kong Massive Multi-Task Language Understanding
- Title(参考訳): 香港の大規模マルチタスク言語理解度の測定
- Authors: Chuxue Cao, Zhenghao Zhu, Junqi Zhu, Guoying Lu, Siyu Peng, Juntao Dai, Weijie Shi, Sirui Han, Yike Guo,
- Abstract要約: 香港の言語能力と社会文化的知識を評価するベンチマークであるHKMMLUを紹介する。
最高の性能モデルであるDeepSeek-V3は、MMLUやCMMLUに比べて75%の精度を達成するのに苦労している。
このパフォーマンスギャップは、香港固有の言語と知識ドメインにおけるLLMの能力向上の必要性を強調している。
- 参考スコア(独自算出の注目度): 8.18541769113546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual understanding is crucial for the cross-cultural applicability of Large Language Models (LLMs). However, evaluation benchmarks designed for Hong Kong's unique linguistic landscape, which combines Traditional Chinese script with Cantonese as the spoken form and its cultural context, remain underdeveloped. To address this gap, we introduce HKMMLU, a multi-task language understanding benchmark that evaluates Hong Kong's linguistic competence and socio-cultural knowledge. The HKMMLU includes 26,698 multi-choice questions across 66 subjects, organized into four categories: Science, Technology, Engineering, and Mathematics (STEM), Social Sciences, Humanities, and Other. To evaluate the multilingual understanding ability of LLMs, 90,550 Mandarin-Cantonese translation tasks were additionally included. We conduct comprehensive experiments on GPT-4o, Claude 3.7 Sonnet, and 18 open-source LLMs of varying sizes on HKMMLU. The results show that the best-performing model, DeepSeek-V3, struggles to achieve an accuracy of 75\%, significantly lower than that of MMLU and CMMLU. This performance gap highlights the need to improve LLMs' capabilities in Hong Kong-specific language and knowledge domains. Furthermore, we investigate how question language, model size, prompting strategies, and question and reasoning token lengths affect model performance. We anticipate that HKMMLU will significantly advance the development of LLMs in multilingual and cross-cultural contexts, thereby enabling broader and more impactful applications.
- Abstract(参考訳): 多言語理解は、大規模言語モデル(LLM)の異文化間適用性に不可欠である。
しかし、伝統的な中国語の文字とカントン語を話し言葉として組み合わせた香港独自の言語景観のための評価ベンチマークは、まだ未発達のままである。
このギャップに対処するため,香港の言語能力と社会文化的知識を評価するマルチタスク言語理解ベンチマークであるHKMMLUを紹介する。
HKMMLUには、科学、技術、工学、数学(STEM)、社会科学、人文科学、その他の4つのカテゴリに分類される66の科目にわたる26,698の多票質問が含まれている。
LLMの多言語理解能力を評価するために,90,550のmandarin-Cantonese翻訳タスクが加わった。
我々は,GPT-4o,Claude 3.7 Sonnet,およびHKMMLU上のさまざまなサイズのオープンソースLLM18について包括的な実験を行った。
その結果,最高の性能モデルであるDeepSeek-V3は,MMLUやCMMLUに比べて75倍の精度を達成するのに苦慮していることがわかった。
このパフォーマンスギャップは、香港固有の言語と知識ドメインにおけるLLMの能力向上の必要性を強調している。
さらに,問合せ言語,モデルサイズ,促進戦略,問合せトークンの長さがモデル性能に与える影響について検討する。
我々は,HKMMLUが多言語および異文化の文脈におけるLLMの開発を著しく進展させ,より広範かつより影響力のあるアプリケーションを実現することを期待する。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - HKCanto-Eval: A Benchmark for Evaluating Cantonese Language Understanding and Cultural Comprehension in LLMs [0.0]
HKCanto-Evalベンチマークは、カントン言語理解タスクにおける大きな言語モデルを評価するために設計されている。
香港固有の文化的・言語的なニュアンスを統合し、現実的なシナリオで言語モデルを評価するための堅牢な枠組みを提供する。
その結果,プロプライエタリなモデルは一般にオープンウェイトモデルより優れているが,カントン固有の言語的・文化的知識を扱う上では,大きな制限が残っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-16T10:26:24Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。