論文の概要: The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
- arxiv url: http://arxiv.org/abs/2504.15521v1
- Date: Tue, 22 Apr 2025 01:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 16:41:15.665568
- Title: The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
- Title(参考訳): 2,000以上の多言語ベンチマークから学んだビターレッスン
- Authors: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: 本稿では148カ国の2000以上の多言語(非英語)ベンチマークについて検討する。
英語はこれらのベンチマークで著しく過剰に表現されている。
ほとんどのベンチマークは翻訳よりもオリジナルの言語コンテンツに依存している。
- 参考スコア(独自算出の注目度): 37.79158418300249
- License:
- Abstract: As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.
- Abstract(参考訳): 大規模言語モデル (LLMs) が言語能力の進歩を続けるにつれ, 健全な多言語評価が技術進歩の促進に欠かせないものとなっている。
本稿では,2021年から2024年にかけて発行された148カ国の2000以上の多言語(非英語)ベンチマークについて検討し,過去,現在,そして今後の多言語ベンチマークの実践を評価する。
我々の調査によると、数千万ドルの巨額の投資にもかかわらず、これらのベンチマークでは英語が著しく過剰に表現されている。
さらに、ほとんどのベンチマークは翻訳よりも独自の言語コンテンツに依存しており、大多数は中国、インド、ドイツ、イギリス、アメリカといった高資源国から出ている。
さらに、ベンチマークパフォーマンスと人間の判断を比較すると、顕著な相違が浮き彫りになる。
STEM関連タスクは人間の評価と強い相関(0.70から0.85)を示し、従来のNLPタスク(例えば、XQuAD)はより弱い相関(0.11から0.30)を示す。
さらに、ローカライズされたベンチマークは、翻訳されたベンチマーク (0.47) よりも、局所的な人間の判断 (0.68) とのアライメントが著しく高いことを示すため、他の言語への英語ベンチマークの翻訳は不十分である。
これは、翻訳にのみ依存するのではなく、文化的かつ言語的に調整されたベンチマークを作成することの重要性を浮き彫りにしている。
この包括的分析を通じて、現在の多言語評価の実践における6つの重要な限界を強調し、効果的な多言語ベンチマークのための指針原則を提案し、この分野の進歩を促進するための5つの重要な研究方向を概説する。
最後に、現実世界のアプリケーションを優先順位付けするヒューマンアラインなベンチマークを開発するための、グローバルな共同作業を求めます。
関連論文リスト
- Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages [15.983678567785004]
スロットフィリングとインテント検出は、会話型AIにおいて確立されたタスクである。
Injongoは16のアフリカ言語のための、多文化でオープンソースのベンチマークデータセットです。
アフリカ文化の発話を西洋中心の発話に活用して言語間移動を改善する利点を示す。
論文 参考訳(メタデータ) (2025-02-13T23:17:10Z) - Towards Large Language Model driven Reference-less Translation Evaluation for English and Indian Languages [3.5068973868297117]
本研究では,英語とインド語における翻訳の質を評価するために,人間の直接評価を模倣する実験を行った。
我々は,ゼロショット学習,インコンテキストのサンプル駆動学習,大規模言語モデルの微調整を行う翻訳評価タスクを構築し,100点中100点が完全翻訳であり,1点が不十分翻訳であることを示す。
論文 参考訳(メタデータ) (2024-04-03T06:57:45Z) - Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark [14.891068432456262]
本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
論文 参考訳(メタデータ) (2023-05-25T03:03:29Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual
Machine Translation [21.55080388385458]
本研究では,英語ウィキペディアから抽出した3001文からなるFLORES-101評価ベンチマークを紹介する。
結果として得られたデータセットは、低リソース言語の長い尾におけるモデル品質のより良い評価を可能にする。
論文 参考訳(メタデータ) (2021-06-06T17:58:12Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。