Fugu-MT 論文翻訳(概要): Improving LLM-as-a-Judge Inference with the Judgment Distribution

論文の概要: Improving LLM-as-a-Judge Inference with the Judgment Distribution

arxiv url: http://arxiv.org/abs/2503.03064v1
Date: Tue, 04 Mar 2025 23:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.712395
Title: Improving LLM-as-a-Judge Inference with the Judgment Distribution
Title（参考訳）: 判断分布を考慮したLCM-as-a-Judge推論の改良
Authors: Victor Wang, Michael J. Q. Zhang, Eunsol Choi,
Abstract要約: 言語モデルを用いて、テキスト品質(LLM-as-a-judge)に関する人間の嗜好を近似する手法が、多くのタスクに適用可能な標準のプラクティスとなっている。判定分布の平均値を取ると、すべての評価設定においてモード(グレディ復号化)を連続的に上回ることがわかった。さらに, 評価分布から嗜好を導出する新たな手法について検討し, リスク回避を取り入れた手法により, 性能が向上することを見出した。
参考スコア（独自算出の注目度）: 44.15045575489466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using language models to scalably approximate human preferences on text quality (LLM-as-a-judge) has become a standard practice applicable to many tasks. A judgment is often extracted from the judge's textual output alone, typically with greedy decoding. However, LLM judges naturally provide distributions over judgment tokens, inviting a breadth of inference methods for extracting fine-grained preferences. We find that taking the mean of the judgment distribution consistently outperforms taking the mode (i.e. greedy decoding) in all evaluation settings (i.e. pointwise, pairwise, and listwise). We further explore novel methods of deriving preferences from judgment distributions, and find that methods incorporating risk aversion often improve performance. Lastly, we analyze LLM-as-a-judge paired with chain-of-thought (CoT) prompting, showing that CoT can collapse the spread of the judgment distribution, often harming performance. Our findings suggest leveraging distributional output can improve LLM-as-a-judge, as opposed to using the text interface alone.
Abstract（参考訳）: 言語モデルを用いて、テキスト品質(LLM-as-a-judge)に関する人間の嗜好を的確に近似する手法が、多くのタスクに適用可能な標準のプラクティスとなっている。判決は、裁判官のテキスト出力のみから抽出されることが多く、典型的には欲張りの復号化を伴う。しかし LLM の判断は自然に判定トークン上の分布を提供し、粒度の細かい選好を抽出するための多くの推論手法を招待する。判定分布の平均値を取ることは、すべての評価設定(ポイントワイド、ペアワイド、リストワイド)において、モード(グレディデコーディング)を常に上回る。さらに, 評価分布から嗜好を導出する新たな手法について検討し, リスク回避を取り入れた手法により, 性能が向上することを見出した。最後に,LLM-as-a-judgeとチェーン・オブ・シント(CoT)とを組み合わせて解析し,CoTが判定分布の拡散を崩壊させ,しばしば性能を損なうことを示す。この結果から, 分散出力の活用は, テキストインターフェースのみを使用するのではなく, LLM-as-a-judgeを改善することが示唆された。

関連論文リスト

SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文参考訳（メタデータ） (2025-07-24T08:28:17Z)
Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。 LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか? コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文参考訳（メタデータ） (2025-05-22T04:49:33Z)
REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities [45.00513157371274]
我々は、ロシア語で大言語モデルを審査員として使用する枠組みを評価した。人選好に基づく3つの評価システムを用いて, エラータイプ別に6つの生成LDMをランク付けする。以上の結果から,LLM判定におけるロシア語と英語の差が顕著であった。
論文参考訳（メタデータ） (2025-03-17T12:15:16Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
Verdict: A Library for Scaling Judge-Time Compute [4.962699700524792]
Verdictは、自動評価器の精度、信頼性、解釈性を高めるために、判断時間計算をスケールするためのライブラリである。審査員は最先端(SOTA)または近距離(SOTA)のパフォーマンスを達成し、マグニチュードより大きな微調整裁判官を超越する。
論文参考訳（メタデータ） (2025-02-25T09:26:44Z)
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文参考訳（メタデータ） (2024-11-25T17:28:44Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Better Instruction-Following Through Minimum Bayes Risk [48.879360919760074]
人間レベルの評価が可能な汎用LLM審査員は、命令追従LLMを評価するスケーラブルで正確な方法を提供する。 LLM判事を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)デコーディングである。 MBRデコードでは、基準ベースの評価器を使用して、候補出力のセットの中から高品質な出力を選択する。
論文参考訳（メタデータ） (2024-10-03T18:48:38Z)
Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか? その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文参考訳（メタデータ） (2024-09-23T17:58:07Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文参考訳（メタデータ） (2024-06-11T06:53:19Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。