論文の概要: Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish
- arxiv url: http://arxiv.org/abs/2511.10664v1
- Date: Wed, 05 Nov 2025 22:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.241935
- Title: Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish
- Title(参考訳): 低資源・形態的にリッチな言語における現代大言語モデルの評価:カントン語・日本語・トルコ語間の言語間ベンチマーク
- Authors: Chengxuan Xia, Qianye Wu, Hongbin Guan, Sixuan Tian, Yilun Hao, Xiaoyu Wu,
- Abstract要約: GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
- 参考スコア(独自算出の注目度): 12.286855282078305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive results in high-resource languages like English, yet their effectiveness in low-resource and morphologically rich languages remains underexplored. In this paper, we present a comprehensive evaluation of seven cutting-edge LLMs -- including GPT-4o, GPT-4, Claude~3.5~Sonnet, LLaMA~3.1, Mistral~Large~2, LLaMA-2~Chat~13B, and Mistral~7B~Instruct -- on a new cross-lingual benchmark covering \textbf{Cantonese, Japanese, and Turkish}. Our benchmark spans four diverse tasks: open-domain question answering, document summarization, English-to-X translation, and culturally grounded dialogue. We combine \textbf{human evaluations} (rating fluency, factual accuracy, and cultural appropriateness) with automated metrics (e.g., BLEU, ROUGE) to assess model performance. Our results reveal that while the largest proprietary models (GPT-4o, GPT-4, Claude~3.5) generally lead across languages and tasks, significant gaps persist in culturally nuanced understanding and morphological generalization. Notably, GPT-4o demonstrates robust multilingual performance even on cross-lingual tasks, and Claude~3.5~Sonnet achieves competitive accuracy on knowledge and reasoning benchmarks. However, all models struggle to some extent with the unique linguistic challenges of each language, such as Turkish agglutinative morphology and Cantonese colloquialisms. Smaller open-source models (LLaMA-2~13B, Mistral~7B) lag substantially in fluency and accuracy, highlighting the resource disparity. We provide detailed quantitative results, qualitative error analysis, and discuss implications for developing more culturally aware and linguistically generalizable LLMs. Our benchmark and evaluation data are released to foster reproducibility and further research.
- Abstract(参考訳): 大規模言語モデル (LLM) は、英語のような高リソース言語で顕著な成果を上げているが、低リソース言語や形態学的に豊かな言語での有効性はいまだ検討されていない。
本稿では, GPT-4o, GPT-4, Claude~3.5~Sonnet, LLaMA~3.1, Mistral~Large~2, LLaMA-2~Chat~13B, Mistral~7B~Instructを含む7つの最先端LCMを, \textbf{Cantonese, Japanese, Turk}をカバーする新しい言語間ベンチマークで総合評価する。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
モデル性能を評価するために,<textbf{human evaluations}(リアルタイム,事実精度,文化的適切性)と自動メトリクス(BLEU,ROUGEなど)を組み合わせる。
その結果,最大のプロプライエタリモデル(GPT-4o,GPT-4,Claude~3.5)は言語やタスクに共通しているが,文化的に曖昧な理解と形態的一般化では大きなギャップが持続することがわかった。
特に、GPT-4oはクロスランガルタスクでも堅牢な多言語性能を示し、Claude~3.5~Sonnetは知識と推論ベンチマークの競合精度を達成する。
しかしながら、すべてのモデルは、トルコの凝集的形態学やカントン語の口語主義など、各言語の固有の言語的課題とある程度の抗争を繰り広げている。
より小さなオープンソースモデル (LLaMA-2~13B, Mistral~7B) では、レイテンシと精度が大幅に低下し、リソース格差が強調された。
我々は、より文化的に認識され、言語的に一般化可能なLLMを開発する上での意義について、詳細な定量的結果、定性的誤り分析、そして議論する。
再現性とさらなる研究を促進するため,我々のベンチマークと評価データを公表した。
関連論文リスト
- LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation [2.9248916859490173]
マルチ言語視覚質問応答(VQA)タスクにおいて,最先端のLMMを評価するためのベンチマークを導入する。
データセットは、11言語と5つの社会的属性にまたがる、6,875のイメージテキストペアで構成されている。
Bias、Answer Relevancy、Faithfulnessの3つの主要な指標を用いてモデルを評価する。
論文 参考訳(メタデータ) (2025-07-09T20:45:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。