論文の概要: Deconstructing Self-Bias in LLM-generated Translation Benchmarks
- arxiv url: http://arxiv.org/abs/2509.26600v1
- Date: Tue, 30 Sep 2025 17:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.646626
- Title: Deconstructing Self-Bias in LLM-generated Translation Benchmarks
- Title(参考訳): LLM生成翻訳ベンチマークにおける自己バイアスの分解
- Authors: Wenda Xu, Sweta Agrawal, Vilém Zouhar, Markus Freitag, Daniel Deutsch,
- Abstract要約: 大きな言語モデル(LLM)は、遅くてコストのかかる人間のキュレーションに代わるスケーラブルな代替品として登場した。
LLMは、ベンチマークを作成するモデルを体系的に好んだ。
このバイアスは、生成されたテストデータと評価方法の2つのソースに由来する。
- 参考スコア(独自算出の注目度): 36.3437316867272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) begin to saturate existing benchmarks, automated benchmark creation using LLMs (LLM as a benchmark) has emerged as a scalable alternative to slow and costly human curation. While these generated test sets have to potential to cheaply rank models, we demonstrate a critical flaw. LLM generated benchmarks systematically favor the model that created the benchmark, they exhibit self bias on low resource languages to English translation tasks. We show three key findings on automatic benchmarking of LLMs for translation: First, this bias originates from two sources: the generated test data (LLM as a testset) and the evaluation method (LLM as an evaluator), with their combination amplifying the effect. Second, self bias in LLM as a benchmark is heavily influenced by the model's generation capabilities in the source language. For instance, we observe more pronounced bias in into English translation, where the model's generation system is developed, than in out of English translation tasks. Third, we observe that low diversity in source text is one attribution to self bias. Our results suggest that improving the diversity of these generated source texts can mitigate some of the observed self bias.
- Abstract(参考訳): 大規模言語モデル(LLM)が既存のベンチマークを飽和させ始めるにつれ、LLMを使った自動ベンチマーク作成(LLMをベンチマークとする)が、遅くてコストのかかる人間のキュレーションに代わるスケーラブルな代替手段として登場した。
これらの生成されたテストセットは、モデルを安価にランク付けする可能性があるが、重大な欠陥を実証する。
LLMは、ベンチマークを体系的に好んで作成し、低リソース言語から英訳タスクへの自己バイアスを示す。
まず、このバイアスは、生成されたテストデータ(LLMをテストセットとする)と評価方法(LLMを評価対象とする)の2つのソースから発生し、それらの組み合わせによって効果が増幅される。
第二に、LLMのベンチマークとしての自己バイアスは、ソース言語におけるモデルの生成能力に大きな影響を受けます。
例えば、モデルの生成系が開発される英語翻訳におけるバイアスは、英語翻訳のタスク以外ではより顕著である。
第3に、ソーステキストの多様性の低さが自己バイアスの帰結であることを示す。
以上の結果から,これらのテキストの多様性の向上が,観察された自己バイアスの軽減につながることが示唆された。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。