論文の概要: Rating Roulette: Self-Inconsistency in LLM-As-A-Judge Frameworks
- arxiv url: http://arxiv.org/abs/2510.27106v1
- Date: Fri, 31 Oct 2025 02:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.953553
- Title: Rating Roulette: Self-Inconsistency in LLM-As-A-Judge Frameworks
- Title(参考訳): Rating Roulette: LLM-As-A-Judgeフレームワークの自己整合性
- Authors: Rajarshi Haldar, Julia Hockenmaier,
- Abstract要約: 大規模言語モデル (LLM) は, 異なるランニングにおいて, 割り当てられたスコアの信頼性が低いことを示す。
この分散は、最悪の場合、彼らのレーティングに一貫性がなく、ほぼ任意である。
我々は、異なるNLGタスクやベンチマーク間でこの矛盾を定量化し、LLM審査員の司法的利用が適切なガイドラインに従って有用であるかどうかを確認する。
- 参考スコア(独自算出の注目度): 4.757470449749876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Natural Language Generation (NLG) continues to be widely adopted, properly assessing it has become quite difficult. Lately, using large language models (LLMs) for evaluating these generations has gained traction, as they tend to align more closely with human preferences than conventional n-gram or embedding-based metrics. In our experiments, we show that LLM judges have low intra-rater reliability in their assigned scores across different runs. This variance makes their ratings inconsistent, almost arbitrary in the worst case, making it difficult to measure how good their judgments actually are. We quantify this inconsistency across different NLG tasks and benchmarks and see if judicious use of LLM judges can still be useful following proper guidelines.
- Abstract(参考訳): 自然言語生成(NLG)が広く採用されているため、適切に評価することが困難になっている。
近年、これらの世代を評価するために大きな言語モデル(LLM)を使用することは、従来のn-gramや埋め込みベースのメトリクスよりも人間の好みとより密に連携する傾向にあるため、注目を集めている。
実験では, LLM判定器は, 異なるランをまたいで, 割り当てられたスコアの信頼性が低いことを示した。
このばらつきは、最悪の場合、彼らの評価が一貫性がなく、ほぼ任意であり、彼らの判断が実際にどれだけ優れているかを測ることが困難になる。
我々は、異なるNLGタスクやベンチマーク間でこの矛盾を定量化し、LLM審査員の司法的利用が適切なガイドラインに従って有用であるかどうかを確認する。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。