論文の概要: Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
- arxiv url: http://arxiv.org/abs/2407.18370v1
- Date: Thu, 25 Jul 2024 20:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 15:09:00.945972
- Title: Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
- Title(参考訳): 信頼かエスカレートか:人的合意を保証可能な LLM 判事
- Authors: Jaehun Jung, Faeze Brahman, Yejin Choi,
- Abstract要約: 人間の合意を厳格に保証したLCMに基づく評価を提供するための原則的アプローチを提案する。
まず、信頼度評価手法は、ペア評価にモデル選好を不クリティカルに頼ってはならないことを提案する。
そして、この選択的な評価枠組みの下で、人的合意が確実に保証されることを示す。
- 参考スコア(独自算出の注目度): 49.15348173246146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a principled approach to provide LLM-based evaluation with a rigorous guarantee of human agreement. We first propose that a reliable evaluation method should not uncritically rely on model preferences for pairwise evaluation, but rather assess the confidence of judge models and selectively decide when to trust its judgement. We then show that under this selective evaluation framework, human agreement can be provably guaranteed -- such that the model evaluation aligns with that of humans to a user-specified agreement level. As part of our framework, we also introduce Simulated Annotators, a novel confidence estimation method that significantly improves judge calibration and thus enables high coverage of evaluated instances. Finally, we propose Cascaded Selective Evaluation, where we use cheaper models as initial judges and escalate to stronger models only when necessary -- again, while still providing a provable guarantee of human agreement. Experimental results show that Cascaded Selective Evaluation guarantees strong alignment with humans, far beyond what LLM judges could achieve without selective evaluation. For example, on a subset of Chatbot Arena where GPT-4 almost never achieves 80% human agreement, our method, even while employing substantially cost-effective models such as Mistral-7B, guarantees over 80% human agreement with almost 80% test coverage.
- Abstract(参考訳): 人間の合意を厳格に保証したLCMに基づく評価を提供するための原則的アプローチを提案する。
まず、信頼度評価手法は、ペア評価においてモデル選好に非批判的に依存するのではなく、判断モデルの信頼性を評価し、その判断をいつ信頼するかを選択的に決定する。
そして,この選択的な評価枠組みの下では,モデル評価がユーザの指定した合意レベルと一致するように,人的合意を確実に保証することができることを示す。
また,本フレームワークでは,判定のキャリブレーションを大幅に改善し,評価されたインスタンスの高カバレッジを可能にする新しい信頼度推定手法であるSimulated Annotatorも導入している。
最後に、カスケード選択評価(Cascaded Selective Evaluation)を提案します。そこでは、初期の判断として安価なモデルを使用し、必要時にのみ強力なモデルにエスカレートします。
実験結果から, 選択的評価を行なわずに LLM の判断が達成できる範囲をはるかに超えて, カスケード選択評価が人間との強い整合性を保証することが示唆された。
例えば、GPT-4が80%の人的合意をほとんど達成しないChatbot Arenaのサブセットでは、Mistral-7Bのようなコスト効率の高いモデルを採用しながら、約80%のテストカバレッジで80%以上の人的合意を保証しています。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data [14.95829896035971]
新たなデバイアスツールのファミリーは、いくつかの高品質なラベルを使用して多数のモデル判断をデバイアスすることで、問題を解決することを約束している。
本研究の主目的は,審査員が評価モデルに比較して精度が低い場合,デバイアス法が要求される地上の真実ラベルの量を半分以上減らすことができないことである。
論文 参考訳(メタデータ) (2024-10-17T08:49:42Z) - Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。
自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。
我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文 参考訳(メタデータ) (2024-10-07T21:05:53Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。