論文の概要: Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish
- arxiv url: http://arxiv.org/abs/2504.09714v1
- Date: Sun, 13 Apr 2025 20:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:18.832155
- Title: Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish
- Title(参考訳): 低リソース言語におけるベンチマークデータセットの品質評価:トルコ語を事例として
- Authors: Ayşe Aysu Cengiz, Ahmet Kaan Sever, Elif Ecem Ümütlü, Naime Şeyma Erdem, Burak Aytan, Büşra Tufan, Abdullah Topraksoy, Esra Darıcı, Cagri Toraman,
- Abstract要約: 本研究は、トルコの17のベンチマークデータセットの品質を評価することにより、堅牢で文化的に適切なベンチマークの必要性に対処する。
結果から,ベンチマークデータセットの70%が品質基準を満たしていないことがわかった。
GPT-4oは文法的および技術的なタスクに対してより強力なラベリング能力を持ち、Llama3.3-70Bは正確性と文化的知識の評価に優れる。
- 参考スコア(独自算出の注目度): 1.59623393716069
- License:
- Abstract: The reliance on translated or adapted datasets from English or multilingual resources introduces challenges regarding linguistic and cultural suitability. This study addresses the need for robust and culturally appropriate benchmarks by evaluating the quality of 17 commonly used Turkish benchmark datasets. Using a comprehensive framework that assesses six criteria, both human and LLM-judge annotators provide detailed evaluations to identify dataset strengths and shortcomings. Our results reveal that 70% of the benchmark datasets fail to meet our heuristic quality standards. The correctness of the usage of technical terms is the strongest criterion, but 85% of the criteria are not satisfied in the examined datasets. Although LLM judges demonstrate potential, they are less effective than human annotators, particularly in understanding cultural common sense knowledge and interpreting fluent, unambiguous text. GPT-4o has stronger labeling capabilities for grammatical and technical tasks, while Llama3.3-70B excels at correctness and cultural knowledge evaluation. Our findings emphasize the urgent need for more rigorous quality control in creating and adapting datasets for low-resource languages.
- Abstract(参考訳): 英語や多言語資源からの翻訳または適応されたデータセットへの依存は、言語的および文化的適合性に関する課題をもたらす。
本研究は、トルコの17のベンチマークデータセットの品質を評価することにより、堅牢で文化的に適切なベンチマークの必要性に対処する。
6つの基準を総合的に評価するフレームワークを使用することで、人間とLLM-judgeアノテータの両方がデータセットの長所と短所を特定するための詳細な評価を行う。
その結果、ベンチマークデータセットの70%は、我々のヒューリスティックな品質基準を満たしていないことがわかった。
技術的用語の使用の正しさは最も高い基準であるが、基準の85%は調査データセットで満たされていない。
LLMの審査員は潜在的な可能性を示しているが、人間のアノテータよりも効果が低い。
GPT-4oは文法的および技術的なタスクに対してより強力なラベリング能力を持ち、Llama3.3-70Bは正確性と文化的知識の評価に優れる。
我々の発見は、低リソース言語のためのデータセットの作成と適応において、より厳密な品質管理の必要性を強調した。
関連論文リスト
- Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Correcting FLORES Evaluation Dataset for Four African Languages [2.552967468434151]
オリジナルのデータセットは低リソース言語をカバーしているが、様々な不整合や不正確性を示した。
ネイティブスピーカーによる綿密なレビュープロセスを通じて、いくつかの修正が特定され、実装された。
我々の補正によって、データの言語的正確性と信頼性が向上すると考えている。
論文 参考訳(メタデータ) (2024-09-01T06:13:03Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。