論文の概要: Auto-Prompt Ensemble for LLM Judge
- arxiv url: http://arxiv.org/abs/2510.06538v1
- Date: Wed, 08 Oct 2025 00:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.242304
- Title: Auto-Prompt Ensemble for LLM Judge
- Title(参考訳): LLM判事のためのオートプロンプトアンサンブル
- Authors: Jiajie Li, Huayi Zhang, Peng Lin, Jinjun Xiong, Wei Xu,
- Abstract要約: 既存のLLM審査員は、人間の評価の基礎となる暗黙の基準を認識できないため、重要な評価基準を見逃すことがしばしばある。
本稿では,自動プロンプト・アンサンブル(APE)を提案する。
APEは信頼に基づくアンサンブル機構を導入し、新たな評価次元から判断をいつ採用するかを決定する。
- 参考スコア(独自算出の注目度): 24.30935583220292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel framework that improves the reliability of LLM judges by selectively augmenting LLM with auxiliary evaluation dimensions. Existing LLM judges often miss crucial evaluation dimensions because they fail to recognize the implicit standards underlying human assessments. To address this challenge, we propose the Auto-Prompt Ensemble (APE), an adaptive framework that automatically learns evaluation dimensions from its failure cases. APE incorporates a confidence-based ensemble mechanism to decide when to adopt the judgments from additional evaluation dimensions through a novel confidence estimation approach called Collective Confidence. Extensive experiments demonstrate that APE improves the reliability of LLM Judge across diverse standard benchmarks. For instance, APE enhances GPT-4o agreement rate on Reward Bench from 87.2% to 90.5% in the zero-shot setting. Overall, APE provides a principled approach for LLM Judge to leverage test-time computation, and bridge the evaluation gap between human and LLM judges.
- Abstract(参考訳): 本稿では, LLM を補助評価次元で選択的に拡張することにより, LLM 判断者の信頼性を向上させる新しい枠組みを提案する。
既存のLLM審査員は、人間の評価の基礎となる暗黙の基準を認識できないため、重要な評価基準を見逃すことがしばしばある。
この課題に対処するために,障害事例から評価次元を自動的に学習する適応型フレームワークであるAuto-Prompt Ensemble (APE)を提案する。
APEは信頼に基づくアンサンブル機構を導入し、集団信頼と呼ばれる新しい信頼度推定アプローチを通じて、新たな評価次元から判断をいつ採用するかを決定する。
APE は様々な標準ベンチマークで LLM Judge の信頼性を向上することを示した。
例えば、APEはリワードベンチでのGPT-4o合意率を87.2%から90.5%に向上させる。
全体として、ALPはLLMジャッジに対して、テスト時間計算を活用するための原則的なアプローチを提供し、人間とLLMジャッジ間の評価ギャップを橋渡しする。
関連論文リスト
- Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。