論文の概要: Bayesian Calibration of Win Rate Estimation with LLM Evaluators
- arxiv url: http://arxiv.org/abs/2411.04424v1
- Date: Thu, 07 Nov 2024 04:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:13.021561
- Title: Bayesian Calibration of Win Rate Estimation with LLM Evaluators
- Title(参考訳): LLM評価器を用いた風速推定のベイズ校正
- Authors: Yicheng Gao, Gonghan Xu, Zhe Wang, Arman Cohan,
- Abstract要約: 本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
- 参考スコア(独自算出の注目度): 20.588104799661014
- License:
- Abstract: Recent advances in large language models (LLMs) show the potential of using LLMs as evaluators for assessing the quality of text generations from LLMs. However, applying LLM evaluators naively to compare or judge between different systems can lead to unreliable results due to the intrinsic win rate estimation bias of LLM evaluators. In order to mitigate this problem, we propose two calibration methods, Bayesian Win Rate Sampling (BWRS) and Bayesian Dawid-Skene, both of which leverage Bayesian inference to more accurately infer the true win rate of generative language models. We empirically validate our methods on six datasets covering story generation, summarization, and instruction following tasks. We show that both our methods are effective in improving the accuracy of win rate estimation using LLMs as evaluators, offering a promising direction for reliable automatic text quality evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、LLMからテキスト世代の品質を評価するための評価器としてLLMを使用する可能性を示している。
しかし, LLM評価器を用いて異なるシステムを比較したり, 判断したりすると, LLM評価器の本質的な利率推定バイアスが原因で信頼性が低下する可能性がある。
この問題を軽減するために,ベイジアン・ウィンレートサンプリング(BWRS)とベイジアン・ダウィド・スケイン(Bayesian Dawid-Skene)という2つのキャリブレーション手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
両手法は,LLMを評価器として用いる勝利率推定の精度向上に有効であることを示し,信頼性の高い自動テキスト品質評価のための有望な方向を提供する。
関連論文リスト
- Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。
LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。