論文の概要: Silencer: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator
- arxiv url: http://arxiv.org/abs/2505.20738v1
- Date: Tue, 27 May 2025 05:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.424661
- Title: Silencer: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator
- Title(参考訳): Silencer: LLM-as-Benchmark-Generatorにおける自己バイアスの発見から緩和へ
- Authors: Peiwen Yuan, Yiwei Li, Shaoxiong Feng, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: この研究は、自己生成ベンチマークで評価されたモデルにおいて、膨張性能の現象を体系的に定義し、検証する。
我々は、サンプルレベルとベンチマークレベルの両方で複数のジェネレータ間の不均一性を利用してバイアスを中和し、高品質な自己バイアスサイレンスベンチマークを生成するフレームワークであるSilencerを提案する。
様々な設定における実験結果から、Silencerは自己バイアスをほぼゼロに抑えることができ、生成したベンチマークの有効性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 19.673388630963807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-Benchmark-Generator methods have been widely studied as a supplement to human annotators for scalable evaluation, while the potential biases within this paradigm remain underexplored. In this work, we systematically define and validate the phenomenon of inflated performance in models evaluated on their self-generated benchmarks, referred to as self-bias, and attribute it to sub-biases arising from question domain, language style, and wrong labels. On this basis, we propose Silencer, a general framework that leverages the heterogeneity between multiple generators at both the sample and benchmark levels to neutralize bias and generate high-quality, self-bias-silenced benchmark. Experimental results across various settings demonstrate that Silencer can suppress self-bias to near zero, significantly improve evaluation effectiveness of the generated benchmark (with an average improvement from 0.655 to 0.833 in Pearson correlation with high-quality human-annotated benchmark), while also exhibiting strong generalizability.
- Abstract(参考訳): LLM-as-Benchmark-Generator法は、スケーラブルな評価のために人間のアノテータを補うものとして広く研究されているが、このパラダイムの潜在的なバイアスは未解明のままである。
本研究では,自己バイアスと呼ばれる自己生成ベンチマークで評価されたモデルにおいて,膨らませた性能の現象を体系的に定義し,その特性を疑問領域,言語スタイル,誤ったラベルから生じるサブバイアスとみなす。
そこで本研究では,サンプルおよびベンチマークレベルの複数のジェネレータ間の不均一性を利用してバイアスを中和し,高品質な自己バイアスサイレンサベンチマークを生成する,汎用フレームワークであるSilencerを提案する。
様々な設定における実験結果から、サイレンサーは自己バイアスをほぼゼロに抑えることができ、生成したベンチマークの評価性能(Pearsonと高品質な有意なベンチマークとの相関で平均0.655から0.833に改善)が著しく向上し、また、強い一般化性を示した。
関連論文リスト
- Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - Self Iterative Label Refinement via Robust Unlabeled Learning [9.936885864460896]
大規模言語モデル(LLM)の自己抑制手法は、しばしば固有のバイアスと過剰な自信に悩まされる。
本稿では,LLM生成した擬似ラベルの分類処理を改善するために,Unlabeled-Unlabeled学習フレームワークを用いた反復的改良パイプラインを提案する。
我々のアプローチは、初期擬似ラベルを反復的に軽視し、洗練することにより、内部バイアスの悪影響を最小限の人的監督で軽減する。
論文 参考訳(メタデータ) (2025-02-18T06:04:18Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。