論文の概要: Language Model Preference Evaluation with Multiple Weak Evaluators
- arxiv url: http://arxiv.org/abs/2410.12869v2
- Date: Sun, 29 Dec 2024 13:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:33.417336
- Title: Language Model Preference Evaluation with Multiple Weak Evaluators
- Title(参考訳): 多重弱評価器を用いた言語モデル評価
- Authors: Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Hui Xiong, Ranjay Krishna,
- Abstract要約: GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 78.53743237977677
- License:
- Abstract: Despite the remarkable success of Large Language Models (LLMs), evaluating their outputs' quality regarding *preference* remains a critical challenge. Existing works usually leverage a powerful LLM (e.g., GPT4) as the judge for comparing LLMs' output pairwisely, yet such model-based evaluator is vulnerable to *conflicting preference*, i.e., output A is better than B, B than C, but C than A, causing contradictory evaluation results. To improve model-based preference evaluation, we introduce GED (Preference Graph Ensemble and Denoise), a novel approach that leverages multiple model-based evaluators to construct preference graphs, and then ensemble and denoise these graphs for better, non-contradictory evaluation results. In particular, our method consists of two primary stages: aggregating evaluations into a unified graph and applying a denoising process to eliminate cyclic inconsistencies, ensuring a directed acyclic graph (DAG) structure. We provide theoretical guarantees for our framework, demonstrating its efficacy in recovering the ground truth preference structure. Extensive experiments across ten benchmark datasets show that GED outperforms baseline methods in model ranking, response selection, and model alignment tasks. Notably, GED combines weaker evaluators like Llama3-8B, Mistral-7B, and Qwen2-7B to surpass the performance of stronger evaluators like Qwen2-72B, highlighting its ability to enhance evaluation reliability and improve model performance.
- Abstract(参考訳): LLM(Large Language Models)の顕著な成功にもかかわらず、*preference*に関するアウトプットの品質を評価することは、依然として重要な課題である。
既存の作業は通常、LLMの出力をペアで比較する判断として強力なLCM(eg , GPT4)を利用するが、そのようなモデルベースの評価器は*説明の好み*、すなわち出力AはBよりBよりBより、CよりCよりは良く、矛盾した評価結果を引き起こす。
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を用いて嗜好グラフを構築し、これらのグラフをアンサンブル・デノマイズすることで、より良い非矛盾性評価結果を得る手法である。
特に,本手法は2つの主要な段階から構成される: 評価を統一グラフに集約し, 周期的不整合を排除し, 有向非巡回グラフ(DAG)構造を確実にする。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
10のベンチマークデータセットにわたる大規模な実験により、GEDはモデルランキング、応答選択、モデルアライメントタスクにおいて、ベースラインメソッドよりも優れていることが示された。
特に、GEDはLlama3-8B、Mistral-7B、Qwen2-7Bのような弱い評価器を組み合わせることで、Qwen2-72Bのような強力な評価器の性能を超え、信頼性を高め、モデルの性能を向上させる能力を強調している。
関連論文リスト
- Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - Offline Model-Based Optimization by Learning to Rank [26.21886715050762]
我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。
そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:15:03Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。