Fugu-MT 論文翻訳(概要): The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models

論文の概要: The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2604.20225v1
Date: Wed, 22 Apr 2026 06:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.988561
Title: The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models
Title（参考訳）: GaoYaoベンチマーク:大規模言語モデルの多言語・多文化能力評価のための総合的フレームワーク
Authors: Yilun Liu, Chunguang Zhao, Mengyao Piao, Lingqi Miao, Shimin Tao, Minggui He, Chenxin Liu, Li Zhang, Hongxia Ma, Jiaxin Guo, Chen Liu, Liqun Deng, Jiansheng Wei, Xiaojun Meng, Fanyi Du, Daimeng Wei, Yanghua Xiao,
Abstract要約: GaoYaoは182.3kサンプル、26言語、51か国/地域からなる総合ベンチマークである。まず、GaoYao氏は評価タスクを3つの文化階層に分類する統一的なフレームワークを提案する。第二に、専門家を活用して、主観的なベンチマークを19言語に厳格にローカライズすることで、ネイティブ品質の拡大を実現しています。第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。
参考スコア（独自算出の注目度）: 51.61416200800499
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the multilingual and multicultural capabilities of Large Language Models (LLMs) is essential for their global utility. However, current benchmarks face three critical limitations: (1) fragmented evaluation dimensions that often neglect deep cultural nuances; (2) insufficient language coverage in subjective tasks relying on low-quality machine translation; and (3) shallow analysis that lacks diagnostic depth beyond simple rankings. To address these, we introduce GaoYao, a comprehensive benchmark with 182.3k samples, 26 languages and 51 nations/areas. First, GaoYao proposes a unified framework categorizing evaluation tasks into three cultural layers (General Multilingual, Cross-cultural, Monocultural) and nine cognitive sub-layers. Second, we achieve native-quality expansion by leveraging experts to rigorously localize subjective benchmarks into 19 languages and synthesizing cross-cultural test sets for 34 cultures, surpassing prior coverage by up to 111%. Third, we conduct an in-depth diagnostic analysis on 20+ flagship and compact LLMs. Our findings reveal significant geographical performance disparities and distinct gaps between tasks, offering a reliable map for future work. We release the benchmark (https://github.com/lunyiliu/GaoYao).
Abstract（参考訳）: 大規模言語モデル(LLM)の多言語的・多文化的能力を評価することは,そのグローバルな有用性に不可欠である。しかし,現状のベンチマークでは,(1)深い文化的ニュアンスをしばしば無視する断片化評価次元,(2)低品質機械翻訳に依存する主観的タスクにおける言語カバレッジの不足,(3)単純なランキング以上の診断深度を欠く浅い分析の3つの限界に直面している。 GaoYaoは182.3kサンプル、26の言語、51の国/地域からなる包括的なベンチマークである。まず、GaoYao氏は評価タスクを3つの文化層(総合多言語、クロスカルチャー、モノカルチャー)と9つの認知サブレイヤに分類する統一的なフレームワークを提案する。第2に、専門家を活用して、19の言語に主観的なベンチマークを厳格にローカライズし、34の文化に対する異文化間のテストセットを合成し、前回のカバレッジを最大111%上回ることで、ネイティブ品質の拡大を実現した。第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。本研究は,課題間の地理的パフォーマンスの相違と相違点を明らかにし,今後の作業に信頼性のある地図を提供する。ベンチマーク(https://github.com/lunyiliu/GaoYao)をリリースします。

関連論文リスト

CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks [64.22418143822016]
CulturALLは、大規模言語モデルの多言語的・多文化的な能力を評価するためのベンチマークである。 51の領域から14の言語で2,610のサンプルが含まれており、16のトピックに分散して、接地されたタスクの全幅をキャプチャしている。実験の結果、最高のLLMはカルトゥルルルで44.48%の精度を達成し、改善の余地があることが示されている。
論文参考訳（メタデータ） (2026-04-21T09:21:46Z)
GaelEval: Benchmarking LLM Performance for Scottish Gaelic [6.165315297421253]
我々はGaelicの最初の多次元ベンチマークであるGaelEvalを紹介する。 Gemini 3 Pro Previewは、言語タスクにおいて、人間のベースラインを超える精度で8,33%の精度を達成している。文化的なタスクでは、リードモデルは90%以上の正確さを誇っているが、ほとんどのシステムはゲール的なプロンプトの下では悪化している。
論文参考訳（メタデータ） (2026-04-02T15:09:18Z)
"Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs [0.0]
本稿では,機械翻訳における文化的ローカライゼーションを評価するための大規模評価ベンチマークを提案する。言語毎に5つのネイティブスピーカーレーダを持つ15言語を対象に,多言語大言語モデル (LLM) を7つ評価した。 GPT-5 (2.10/3)、Claude Sonnet 3.7 (1.97/3)、Mistral Medium 3.1 (1.84/3)は破滅的な失敗が少ない最強の層である。
論文参考訳（メタデータ） (2026-02-04T16:35:48Z)
IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs [2.697578491761838]
IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
論文参考訳（メタデータ） (2025-11-06T18:01:22Z)
Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文参考訳（メタデータ） (2025-11-05T22:09:53Z)
CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。 CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。 CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文参考訳（メタデータ） (2025-10-07T15:33:52Z)
MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。 i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-10-07T14:12:12Z)
Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文参考訳（メタデータ） (2025-03-20T04:26:40Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。