Fugu-MT 論文翻訳(概要): Language Model Preference Evaluation with Multiple Weak Evaluators

論文の概要: Language Model Preference Evaluation with Multiple Weak Evaluators

arxiv url: http://arxiv.org/abs/2410.12869v3
Date: Sat, 01 Feb 2025 19:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.274039
Title: Language Model Preference Evaluation with Multiple Weak Evaluators
Title（参考訳）: 多重弱評価器を用いた言語モデル評価
Authors: Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Hui Xiong, Ranjay Krishna,
Abstract要約: GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
参考スコア（独自算出の注目度）: 78.53743237977677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable success of Large Language Models (LLMs), evaluating their outputs' quality regarding *preference* remains a critical challenge. Existing works usually leverage an LLM as the judge for comparing LLMs' output pairwisely, yet such model-based evaluator is *weak evaluator* due to *conflicting preference*, i.e., output A is better than B, B than C, but C than A, causing contradictory evaluation results. To address this, we introduce GED (Preference Graph Ensemble and Denoise), a novel approach that leverages multiple model-based evaluators to construct preference graphs, and then ensemble and denoise these graphs for better, non-contradictory evaluation results. In particular, our method consists of two primary stages: aggregating evaluations into a unified graph and applying a denoising process to eliminate cyclic inconsistencies, ensuring a directed acyclic graph (DAG) structure. We provide theoretical guarantees for our framework, demonstrating its efficacy in recovering the ground truth preference structure. Extensive experiments on ten benchmarks demonstrate GED's superiority in three applications: model ranking, response selection, and model alignment tasks. Notably, GED combines small LLM evaluators (e.g., Llama3-8B, Mistral-7B, Qwen2-7B) to outperform stronger ones (e.g., Qwen2-72B), showcasing its effectiveness in enhancing evaluation reliability and improving model performance.
Abstract（参考訳）: LLM(Large Language Models)の顕著な成功にもかかわらず、*preference*に関するアウトプットの品質を評価することは、依然として重要な課題である。既存の作業は LLM の出力を並べて比較する判断として LLM を利用するが、そのようなモデルに基づく評価器は *weak evaluator* である。 GED(Preference Graph Ensemble and Denoise)は,複数のモデルに基づく評価器を用いて選好グラフを構築し,より優れた非矛盾性評価結果を得るためにこれらのグラフをアンサンブル・復調する手法である。特に,本手法は2つの主要な段階から構成される: 評価を統一グラフに集約し, 周期的不整合を排除し, 有向非巡回グラフ(DAG)構造を確実にする。我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。 10のベンチマークに関する大規模な実験は、GEDが3つのアプリケーション(モデルランキング、応答選択、モデルアライメントタスク)で優れていることを示している。特に、GEDは小さなLCM評価器(例えば、Llama3-8B、Mistral-7B、Qwen2-7B)を組み合わせて、より強力な評価器(例えば、Qwen2-72B)より優れ、評価信頼性の向上とモデル性能の向上にその効果を示す。

関連論文リスト

Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文参考訳（メタデータ） (2025-04-04T18:09:23Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
Offline Model-Based Optimization by Learning to Rank [26.21886715050762]
我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
論文参考訳（メタデータ） (2024-10-15T11:15:03Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
An Optimism-based Approach to Online Evaluation of Generative Models [23.91197677628145]
利用可能なモデル群間の標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価フレームワークを提案する。具体的には、Fr'echet Inception Distance(FID)とInception Score(IS)のメトリクスに基づいて、生成モデルのオンライン評価を行う。
論文参考訳（メタデータ） (2024-06-11T16:57:48Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。