論文の概要: Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data
- arxiv url: http://arxiv.org/abs/2410.13341v1
- Date: Thu, 17 Oct 2024 08:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:43.992328
- Title: Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data
- Title(参考訳): フロンティアにおけるスケーラブルな評価の限界:ジャッジとしてのLLMは2倍のデータを達成しない
- Authors: Florian E. Dorner, Vivian Y. Nastl, Moritz Hardt,
- Abstract要約: 新たなデバイアスツールのファミリーは、いくつかの高品質なラベルを使用して多数のモデル判断をデバイアスすることで、問題を解決することを約束している。
本研究の主目的は,審査員が評価モデルに比較して精度が低い場合,デバイアス法が要求される地上の真実ラベルの量を半分以上減らすことができないことである。
- 参考スコア(独自算出の注目度): 14.95829896035971
- License:
- Abstract: High quality annotations are increasingly a bottleneck in the explosively growing machine learning ecosystem. Scalable evaluation methods that avoid costly annotation have therefore become an important research ambition. Many hope to use strong existing models in lieu of costly labels to provide cheap model evaluations. Unfortunately, this method of using models as judges introduces biases, such as self-preferencing, that can distort model comparisons. An emerging family of debiasing tools promises to fix these issues by using a few high quality labels to debias a large number of model judgments. In this paper, we study how far such debiasing methods, in principle, can go. Our main result shows that when the judge is no more accurate than the evaluated model, no debiasing method can decrease the required amount of ground truth labels by more than half. Our result speaks to the severe limitations of the LLM-as-a-judge paradigm at the evaluation frontier where the goal is to assess newly released models that are possibly better than the judge. Through an empirical evaluation, we demonstrate that the sample size savings achievable in practice are even more modest than what our theoretical limit suggests. Along the way, our work provides new observations about debiasing methods for model evaluation, and points out promising avenues for future work.
- Abstract(参考訳): 高品質なアノテーションは、爆発的に成長する機械学習エコシステムにおいて、ますますボトルネックになっている。
そのため、コストのかかるアノテーションを避けるためのスケーラブルな評価手法が重要な研究の野望となっている。
多くの人は、安価なモデル評価を提供するために高価なラベルの代わりに、強力な既存モデルを使用することを望んでいる。
残念なことに、裁判官としてモデルを使用するこの手法は、モデルの比較を歪めることができる自己参照のようなバイアスを導入している。
新たなデバイアスツールのファミリーは、いくつかの高品質なラベルを使用して、多数のモデル判断をデバイアスすることで、これらの問題を解決することを約束している。
本稿では,このような嫌悪法が,原則としてどこまで進むことができるかを検討する。
本研究の主目的は,審査員が評価モデルに比較して精度が低い場合,所要の地中真理ラベルを半分以上減らす方法が存在しないことである。
評価フロンティアにおけるLCM-as-a-judgeパラダイムの厳しい限界について述べる。
実験的な評価により,実際に達成可能なサンプルサイズは,我々の理論的限界が示唆するよりもさらに控えめであることを示す。
その過程で,本研究は,モデル評価のためのデバイアス法に関する新たな知見を提供し,今後の研究に期待できる道のりを指摘する。
関連論文リスト
- Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。
自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。
我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文 参考訳(メタデータ) (2024-10-07T21:05:53Z) - Mitigating the Bias of Large Language Model Evaluation [30.67730115141905]
LLM-as-a-Judgeのバイアスに関する系統的研究を提案する。
クローズドソース・ジャッジモデルでは、表面品質の重要性を緩和するためにキャリブレーションを適用する。
オープンソース・ジャッジ・モデルでは, 対照的な学習によってバイアスを軽減し, 学習から逸脱するが, 表面品質が向上する負のサンプルをキュレートする。
論文 参考訳(メタデータ) (2024-09-25T09:52:44Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。
データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-09T05:16:22Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。