論文の概要: Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments
- arxiv url: http://arxiv.org/abs/2406.11370v2
- Date: Sat, 12 Oct 2024 23:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:06:06.537906
- Title: Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments
- Title(参考訳): Fairer Preferences Elicited Improved Human-Aligned Large Language Model Judgments
- Authors: Han Zhou, Xingchen Wan, Yinhong Liu, Nigel Collier, Ivan Vulić, Anna Korhonen,
- Abstract要約: 大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
- 参考スコア(独自算出の注目度): 41.25558612970942
- License:
- Abstract: Large language models (LLMs) have shown promising abilities as cost-effective and reference-free evaluators for assessing language generation quality. In particular, pairwise LLM evaluators, which compare two generated texts and determine the preferred one, have been employed in a wide range of applications. However, LLMs exhibit preference biases and worrying sensitivity to prompt designs. In this work, we first reveal that the predictive preference of LLMs can be highly brittle and skewed, even with semantically equivalent instructions. We find that fairer predictive preferences from LLMs consistently lead to judgments that are better aligned with humans. Motivated by this phenomenon, we propose an automatic Zero-shot Evaluation-oriented Prompt Optimization framework, ZEPO, which aims to produce fairer preference decisions and improve the alignment of LLM evaluators with human judgments. To this end, we propose a zero-shot learning objective based on the preference decision fairness. ZEPO demonstrates substantial performance improvements over state-of-the-art LLM evaluators, without requiring labeled data, on representative meta-evaluation benchmarks. Our findings underscore the critical correlation between preference fairness and human alignment, positioning ZEPO as an efficient prompt optimizer for bridging the gap between LLM evaluators and human judgments.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、言語生成の品質を評価するためのコスト効率と参照不要な評価器として有望な能力を示している。
特に、2つの生成されたテキストを比較して、好むテキストを決定するペアワイズLCM評価器は、広範囲のアプリケーションで採用されている。
しかし、LSMは好みのバイアスを示し、設計を急進的に進めることを心配している。
本研究では,LLMの予測的嗜好が,意味論的に等価な命令であっても,非常に脆く歪められることを最初に明らかにする。
LLMからのより公平な予測的嗜好は、常に人間とより整合した判断につながることが分かっています。
この現象に触発されたZEPO(Zero-shot Evaluation-oriented Prompt Optimization framework)を提案する。
そこで本研究では,優先決定公正度に基づくゼロショット学習目標を提案する。
ZEPOは、ラベル付きデータを必要としない最先端のLCM評価器に対して、代表的メタ評価ベンチマークで大幅な性能向上を示す。
LLM評価器と人的判断のギャップを埋めるため,ZEPOを効率的なプロンプト・オプティマイザとして位置づけた。
関連論文リスト
- Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。
LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。