論文の概要: Direct Judgement Preference Optimization
- arxiv url: http://arxiv.org/abs/2409.14664v2
- Date: Mon, 30 Sep 2024 00:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:11.871143
- Title: Direct Judgement Preference Optimization
- Title(参考訳): 直接判断選好最適化
- Authors: Peifeng Wang, Austin Xu, Yilun Zhou, Caiming Xiong, Shafiq Joty,
- Abstract要約: 我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
- 参考スコア(独自算出の注目度): 66.83088028268318
- License:
- Abstract: Auto-evaluation is crucial for assessing response quality and offering feedback for model development. Recent studies have explored training large language models (LLMs) as generative judges to evaluate and critique other models' outputs. In this work, we investigate the idea of learning from both positive and negative data with preference optimization to enhance the evaluation capabilities of LLM judges across an array of different use cases. We achieve this by employing three approaches to collect the preference pairs for different use cases, each aimed at improving our generative judge from a different perspective. Our comprehensive study over a wide range of benchmarks demonstrates the effectiveness of our method. In particular, our generative judge achieves the best performance on 10 out of 13 benchmarks, outperforming strong baselines like GPT-4o and specialized judge models. Further analysis show that our judge model robustly counters inherent biases such as position and length bias, flexibly adapts to any evaluation protocol specified by practitioners, and provides helpful language feedback for improving downstream generator models.
- Abstract(参考訳): 自動評価は、応答品質を評価し、モデル開発にフィードバックを提供するために不可欠である。
近年の研究では、他のモデルのアウトプットを評価し、批判するための生成的判断者として、大規模言語モデル(LLM)の訓練について検討されている。
本研究では,LLM審査員の評価能力を高めるために,肯定的データと否定的データの両方から学習する手法について検討する。
異なるユースケースの選好ペアを収集するために3つのアプローチを採用し、それぞれ異なる視点から生成判断を改善することを目的としている。
幅広いベンチマークを総合的に検討した結果,本手法の有効性が示された。
特に,生成型判定器は,13ベンチマーク中10ベンチマークにおいて,GPT-4oや特殊な判定器モデルよりも優れた性能を達成している。
さらに,我々の判断モデルは,位置や長さバイアスなどの固有バイアスに頑健に対処し,実践者が規定する評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
関連論文リスト
- OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。
データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-09T05:16:22Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - On the Limitations of Fine-tuned Judge Models for LLM Evaluation [30.304735030804625]
微調整の審査モデルは、GPT-4と同等の評価能力を発揮すると主張されている。
本研究は, GPT-4 を超越しても, ドメイン内テストセットにおいて, 微調整の判定モデルは高い性能を達成できたが, GPT-4 を数次元にわたって上回る性能を示した。
論文 参考訳(メタデータ) (2024-03-05T10:20:52Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。