Fugu-MT 論文翻訳(概要): TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

論文の概要: TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

arxiv url: http://arxiv.org/abs/2509.21117v1
Date: Thu, 25 Sep 2025 13:04:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 20:58:12.918906
Title: TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
Title（参考訳）: TrustJudge: LLM-as-a-Judgeの不整合と対策
Authors: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang,
Abstract要約: 自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
参考スコア（独自算出の注目度）: 58.04324690859212
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The adoption of Large Language Models (LLMs) as automated evaluators (LLM-as-a-judge) has revealed critical inconsistencies in current evaluation frameworks. We identify two fundamental types of inconsistencies: (1) Score-Comparison Inconsistency, where lower-rated responses outperform higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity Inconsistency, manifested through circular preference chains (A>B>C>A) and equivalence contradictions (A=B=C\neq A). We argue that these issues come from information loss in discrete rating systems and ambiguous tie judgments during pairwise evaluation. We propose TrustJudge, a probabilistic framework that addresses these limitations through two key innovations: 1) distribution-sensitive scoring that computes continuous expectations from discrete rating probabilities, preserving information entropy for more precise scoring, and 2) likelihood-aware aggregation that resolves transitivity violations using bidirectional preference probabilities or perplexity. We also formalize the theoretical limitations of current LLM-as-a-judge frameworks and demonstrate how TrustJudge's components overcome them. When evaluated with Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining higher evaluation accuracy. Our work provides the first systematic analysis of evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both theoretical insights and practical solutions for reliable automated assessment. The framework demonstrates consistent improvements across various model architectures and scales, enabling more trustworthy LLM evaluation without requiring additional training or human annotations. The codes can be found at https://github.com/TrustJudge/TrustJudge.
Abstract（参考訳）: 自動評価器(LLM-as-a-judge)としてのLarge Language Models(LLMs)の採用は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。その結果,(1)スコア・コンパゾンの不整合,(2)高階応答の相互比較,(2)円偏差連鎖(A>B>C>A)と同値矛盾(A=B=C\neqA)の2つの基本的不整合を同定した。これらの問題は、個別評価システムにおける情報損失と、ペア評価におけるあいまいな相関判断から生じるものであると論じる。私たちはTrustJudgeを提案します。これは2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークです。 1)離散的な評価確率から連続的な期待を計算し、より正確な評価のために情報エントロピーを保存する分布感スコア、 2) 双方向の選好確率や難易度を用いて、推移性違反を解消する可能性に留意すること。また、現在の LLM-as-a-judge フレームワークの理論的な制限を形式化し、TrustJudge のコンポーネントがどのようにそれらを克服しているかを示します。 Llama-3.1-70B-Instructを我々のデータセットを用いて判定すると、TrustJudgeはスコア比較の不整合を8.43%(23.32%から14.89%)、ペアワイズトランジシティの不整合を10.82%(15.22%から4.40%)削減し、高い評価精度を維持した。我々の研究は、LCM-as-a-judgeパラダイムにおける評価フレームワークの不整合を初めて体系的に分析し、理論的な洞察と実用的なソリューションの両方を信頼性の高い自動評価に提供します。このフレームワークは、さまざまなモデルアーキテクチャとスケールで一貫した改善を示し、さらなるトレーニングや人的アノテーションを必要とせずに、より信頼性の高いLCM評価を可能にする。コードはhttps://github.com/TrustJudge/TrustJudgeで見ることができる。

関連論文リスト

LLM-as-a-Judge: Rapid Evaluation of Legal Document Recommendation for Retrieval-Augmented Generation [40.06592175227558]
本稿では,法的な文脈における検索・拡張生成システムの評価に対する原則的アプローチについて検討する。我々は、クリッペンドルフのαのような従来の合意メトリクスが、AIシステム評価の典型的な歪んだ分布に誤解をもたらす可能性があることを発見した。本研究は,法的な応用によって要求される精度を維持するための,スケーラブルで費用効果の高い評価への道筋を示唆する。
論文参考訳（メタデータ） (2025-09-15T19:20:21Z)
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文参考訳（メタデータ） (2025-05-28T04:50:41Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。 McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-02-20T05:09:29Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。 TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。 Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文参考訳（メタデータ） (2024-05-08T00:32:19Z)
CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.542045913426639]
CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。 CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。