Fugu-MT 論文翻訳(概要): Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish

論文の概要: Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish

arxiv url: http://arxiv.org/abs/2511.10664v1
Date: Wed, 05 Nov 2025 22:09:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-23 18:31:12.241935
Title: Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish
Title（参考訳）: 低資源・形態的にリッチな言語における現代大言語モデルの評価:カントン語・日本語・トルコ語間の言語間ベンチマーク
Authors: Chengxuan Xia, Qianye Wu, Hongbin Guan, Sixuan Tian, Yilun Hao, Xiaoyu Wu,
Abstract要約: GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
参考スコア（独自算出の注目度）: 12.286855282078305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved impressive results in high-resource languages like English, yet their effectiveness in low-resource and morphologically rich languages remains underexplored. In this paper, we present a comprehensive evaluation of seven cutting-edge LLMs -- including GPT-4o, GPT-4, Claude~3.5~Sonnet, LLaMA~3.1, Mistral~Large~2, LLaMA-2~Chat~13B, and Mistral~7B~Instruct -- on a new cross-lingual benchmark covering \textbf{Cantonese, Japanese, and Turkish}. Our benchmark spans four diverse tasks: open-domain question answering, document summarization, English-to-X translation, and culturally grounded dialogue. We combine \textbf{human evaluations} (rating fluency, factual accuracy, and cultural appropriateness) with automated metrics (e.g., BLEU, ROUGE) to assess model performance. Our results reveal that while the largest proprietary models (GPT-4o, GPT-4, Claude~3.5) generally lead across languages and tasks, significant gaps persist in culturally nuanced understanding and morphological generalization. Notably, GPT-4o demonstrates robust multilingual performance even on cross-lingual tasks, and Claude~3.5~Sonnet achieves competitive accuracy on knowledge and reasoning benchmarks. However, all models struggle to some extent with the unique linguistic challenges of each language, such as Turkish agglutinative morphology and Cantonese colloquialisms. Smaller open-source models (LLaMA-2~13B, Mistral~7B) lag substantially in fluency and accuracy, highlighting the resource disparity. We provide detailed quantitative results, qualitative error analysis, and discuss implications for developing more culturally aware and linguistically generalizable LLMs. Our benchmark and evaluation data are released to foster reproducibility and further research.
Abstract（参考訳）: 大規模言語モデル (LLM) は、英語のような高リソース言語で顕著な成果を上げているが、低リソース言語や形態学的に豊かな言語での有効性はいまだ検討されていない。本稿では, GPT-4o, GPT-4, Claude~3.5~Sonnet, LLaMA~3.1, Mistral~Large~2, LLaMA-2~Chat~13B, Mistral~7B~Instructを含む7つの最先端LCMを, \textbf{Cantonese, Japanese, Turk}をカバーする新しい言語間ベンチマークで総合評価する。我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。モデル性能を評価するために,<textbf{human evaluations}(リアルタイム,事実精度,文化的適切性)と自動メトリクス(BLEU,ROUGEなど)を組み合わせる。その結果,最大のプロプライエタリモデル(GPT-4o,GPT-4,Claude~3.5)は言語やタスクに共通しているが,文化的に曖昧な理解と形態的一般化では大きなギャップが持続することがわかった。特に、GPT-4oはクロスランガルタスクでも堅牢な多言語性能を示し、Claude~3.5~Sonnetは知識と推論ベンチマークの競合精度を達成する。しかしながら、すべてのモデルは、トルコの凝集的形態学やカントン語の口語主義など、各言語の固有の言語的課題とある程度の抗争を繰り広げている。より小さなオープンソースモデル (LLaMA-2~13B, Mistral~7B) では、レイテンシと精度が大幅に低下し、リソース格差が強調された。我々は、より文化的に認識され、言語的に一般化可能なLLMを開発する上での意義について、詳細な定量的結果、定性的誤り分析、そして議論する。再現性とさらなる研究を促進するため,我々のベンチマークと評価データを公表した。

論文の概要: Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish

関連論文リスト