論文の概要: Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2505.12301v1
- Date: Sun, 18 May 2025 08:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.15111
- Title: Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge
- Title(参考訳): 単一点判断を超える: LLM-as-a-Judge の分布アライメント
- Authors: Luyu Chen, Zeyu Zhang, Haoran Tan, Quanyu Dai, Hao Yang, Zhenhua Dong, Xu Chen,
- Abstract要約: 従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。
本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。
我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 24.862965044243168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have emerged as powerful evaluators in the LLM-as-a-Judge paradigm, offering significant efficiency and flexibility compared to human judgments. However, previous methods primarily rely on single-point evaluations, overlooking the inherent diversity and uncertainty in human evaluations. This approach leads to information loss and decreases the reliability of evaluations. To address this limitation, we propose a novel training framework that explicitly aligns the LLM-generated judgment distribution with empirical human distributions. Specifically, we propose a distributional alignment objective based on KL divergence, combined with an auxiliary cross-entropy regularization to stabilize the training process. Furthermore, considering that empirical distributions may derive from limited human annotations, we incorporate adversarial training to enhance model robustness against distribution perturbations. Extensive experiments across various LLM backbones and evaluation tasks demonstrate that our framework significantly outperforms existing closed-source LLMs and conventional single-point alignment methods, with improved alignment quality, evaluation accuracy, and robustness.
- Abstract(参考訳): LLMはLLM-as-a-Judgeパラダイムにおいて強力な評価器として登場し、人間の判断よりも高い効率と柔軟性を提供している。
しかし、従来の手法は主に単点評価に依存しており、人間の評価に固有の多様性と不確実性を見越している。
このアプローチは情報損失をもたらし、評価の信頼性を低下させる。
この制限に対処するために,LLM生成した判定分布と経験的人的分布を明示的に整合させる新しいトレーニングフレームワークを提案する。
具体的には,KL分散に基づく分布アライメント目標と,トレーニングプロセスの安定化を目的とした補助的クロスエントロピー正規化を提案する。
さらに、経験的分布は限定的な人間のアノテーションから導かれる可能性があることを考慮し、分布摂動に対するモデルロバスト性を高めるために敵対的トレーニングを取り入れる。
各種LCMバックボーンおよび評価タスクにわたる広範囲な実験により,我々のフレームワークは,既存のLCMや従来の単一点アライメント法よりも優れた性能を示し,アライメント品質,評価精度,ロバスト性を向上した。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。