論文の概要: Auto-Prompt Ensemble for LLM Judge
- arxiv url: http://arxiv.org/abs/2510.06538v1
- Date: Wed, 08 Oct 2025 00:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.242304
- Title: Auto-Prompt Ensemble for LLM Judge
- Title(参考訳): LLM判事のためのオートプロンプトアンサンブル
- Authors: Jiajie Li, Huayi Zhang, Peng Lin, Jinjun Xiong, Wei Xu,
- Abstract要約: 既存のLLM審査員は、人間の評価の基礎となる暗黙の基準を認識できないため、重要な評価基準を見逃すことがしばしばある。
本稿では,自動プロンプト・アンサンブル(APE)を提案する。
APEは信頼に基づくアンサンブル機構を導入し、新たな評価次元から判断をいつ採用するかを決定する。
- 参考スコア(独自算出の注目度): 24.30935583220292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel framework that improves the reliability of LLM judges by selectively augmenting LLM with auxiliary evaluation dimensions. Existing LLM judges often miss crucial evaluation dimensions because they fail to recognize the implicit standards underlying human assessments. To address this challenge, we propose the Auto-Prompt Ensemble (APE), an adaptive framework that automatically learns evaluation dimensions from its failure cases. APE incorporates a confidence-based ensemble mechanism to decide when to adopt the judgments from additional evaluation dimensions through a novel confidence estimation approach called Collective Confidence. Extensive experiments demonstrate that APE improves the reliability of LLM Judge across diverse standard benchmarks. For instance, APE enhances GPT-4o agreement rate on Reward Bench from 87.2% to 90.5% in the zero-shot setting. Overall, APE provides a principled approach for LLM Judge to leverage test-time computation, and bridge the evaluation gap between human and LLM judges.
- Abstract(参考訳): 本稿では, LLM を補助評価次元で選択的に拡張することにより, LLM 判断者の信頼性を向上させる新しい枠組みを提案する。
既存のLLM審査員は、人間の評価の基礎となる暗黙の基準を認識できないため、重要な評価基準を見逃すことがしばしばある。
この課題に対処するために,障害事例から評価次元を自動的に学習する適応型フレームワークであるAuto-Prompt Ensemble (APE)を提案する。
APEは信頼に基づくアンサンブル機構を導入し、集団信頼と呼ばれる新しい信頼度推定アプローチを通じて、新たな評価次元から判断をいつ採用するかを決定する。
APE は様々な標準ベンチマークで LLM Judge の信頼性を向上することを示した。
例えば、APEはリワードベンチでのGPT-4o合意率を87.2%から90.5%に向上させる。
全体として、ALPはLLMジャッジに対して、テスト時間計算を活用するための原則的なアプローチを提供し、人間とLLMジャッジ間の評価ギャップを橋渡しする。
関連論文リスト
- Are We on the Right Way to Assessing LLM-as-a-Judge? [16.32248269615178]
人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。
合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。
Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。
論文 参考訳(メタデータ) (2025-12-17T23:49:55Z) - Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems [2.9141470183751674]
スケーラブルでコンテキスト対応な評価のための動的学習ベースのフレームワークを提案する。
本手法は,LLM審査員が人間専門家といつ一致するかを評価するために,信頼度予測器のセットを訓練する。
要約およびRAGベンチマーク実験により,我々の動的陪審法は,単一判定基準と静的判定基準の両方よりも,人間の判断との相関が著しく高いことを示した。
論文 参考訳(メタデータ) (2025-12-01T15:26:20Z) - On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - Validating LLM-as-a-Judge Systems under Rating Indeterminacy [65.137380612741]
評価の不確定性の下でLLM-as-a-judgeシステムを検証するための枠組みを提案する。
本研究では, 強制選択評価指示に応答する際の評価の不確定性を人間とLLMがどう解決するかの相違が, 偏見の検証に大きく寄与することを示した。
論文 参考訳(メタデータ) (2025-03-07T22:09:47Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。