Fugu-MT 論文翻訳(概要): Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

論文の概要: Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

arxiv url: http://arxiv.org/abs/2603.16406v1
Date: Tue, 17 Mar 2026 11:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.24979
Title: Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic
Title（参考訳）: ベンチマークは誰か?アイスランドにおけるLCM評価のケーススタディ
Authors: Finnur Ágúst Ingimundarson, Steinunn Rut Friðriksdóttir, Bjarki Ármannsson, Iris Edda Nowenstein, Steinþór Steingrímsson,
Abstract要約: 検証されていない合成データや機械翻訳データを含むベンチマークは、一般的に深刻な欠陥のあるテスト例を含むことを示す。我々は、低/ナトリウム/リソース設定で検証することなく、このようなメソッドの使用を警告する。アイスランドの既存ベンチマークにおける定量的誤差分析の結果,人為的/機械的/機械的ベンチマークと人為的/機械的ベンチマークとの違いが明らかとなった。
参考スコア（独自算出の注目度）: 1.1496889812214104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper evaluates current Large Language Model (LLM) benchmarking for Icelandic, identifies problems, and calls for improved evaluation methods in low/medium-resource languages in particular. We show that benchmarks that include synthetic or machine-translated data that have not been verified in any way, commonly contain severely flawed test examples that are likely to skew the results and undermine the tests' validity. We warn against the use of such methods without verification in low/medium-resource settings as the translation quality can, at best, only be as good as MT quality for a given language at any given time. Indeed, the results of our quantitative error analysis on existing benchmarks for Icelandic show clear differences between human-authored/-translated benchmarks vs. synthetic or machine-translated benchmarks.
Abstract（参考訳）: 本稿ではアイスランド語に対する現在のLarge Language Model (LLM) ベンチマークを評価し、問題を特定し、特に低・中・低リソース言語における評価方法の改善を求める。いずれにせよ検証されていない合成データや機械翻訳データを含むベンチマークには、結果が歪んで、検査の有効性を損なう可能性のある、重大な欠陥のあるテスト例が一般的に含まれていることを示す。翻訳品質は、ある言語において、任意の時点においてMT品質に匹敵する程度に、低レベルのリソース設定で検証することなく、このような手法を使用することを警告する。実際、アイスランドの既存ベンチマークにおける定量的エラー分析の結果、人為的/機械的/機械的ベンチマークと人為的/機械的ベンチマークとの違いが明らかとなった。

関連論文リスト

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets [2.0199251985015434]
データセットとベンチマークのスケーラブルで高品質な翻訳を可能にするために,完全に自動化されたフレームワークを提案する。このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧と南欧の言語に翻訳します。
論文参考訳（メタデータ） (2026-02-25T18:58:25Z)
Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文参考訳（メタデータ） (2026-02-19T14:56:42Z)
DaLA: Danish Linguistic Acceptability Evaluation Guided by Real World Errors [2.2661062324495664]
デンマーク語で見られる最も一般的な誤りを分析します。誤り文を生成する14の汚職関数について紹介する。手動と自動の両方の手法を用いて妥当性を評価する。
論文参考訳（メタデータ） (2025-12-04T13:50:20Z)
Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-09-14T05:49:42Z)
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language [2.594684920405059]
韓国語における汎用的自由形視覚質問応答ベンチマークKOFFVQAを提案する。私たちのベンチマークでは、画像とグレーティングの基準を合わせた275の質問を慎重に作成しています。我々は,既存の評価基準を既存の手法よりもはるかに信頼性の高い評価基準として用いる手法を実験的に検証した。
論文参考訳（メタデータ） (2025-03-31T05:04:25Z)
Spanish and LLM Benchmarks: is MMLU Lost in Translation? [2.589791058467358]
本稿では,MMLU(Massive Multitask Language Understanding)ベンチマークについて考察する。ベンチマークの選択されたカテゴリは、Azure TranslatorとChatGPT4を使用してスペイン語に変換され、ChatGPT4上で動作する。結果は、失敗した項目のかなりの部分が、ベンチマークの翻訳の誤りによるものであることを示している。
論文参考訳（メタデータ） (2024-05-28T11:13:40Z)
Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文参考訳（メタデータ） (2023-07-13T17:14:38Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity [3.6296396308298795]
本稿では,テキスト意味的類似性に関するスウェーデン初の評価ベンチマークを提案する。ベンチマークは、Googleの機械翻訳APIを通じて、英語のSTS-Bデータセットを単純に実行することでコンパイルされる。結果のデータセットに明らかな問題がいくつかあるが、このベンチマークを使用して、現在存在するスウェーデンのテキスト表現の大部分を比較している。
論文参考訳（メタデータ） (2020-09-07T14:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。