論文の概要: Time To Impeach LLM-as-a-Judge: Programs are the Future of Evaluation
- arxiv url: http://arxiv.org/abs/2506.10403v1
- Date: Thu, 12 Jun 2025 06:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.613405
- Title: Time To Impeach LLM-as-a-Judge: Programs are the Future of Evaluation
- Title(参考訳): LLM-as-a-Judgeを実践する時間:プログラムは評価の未来である
- Authors: Tzu-Heng Huang, Harit Vishwakarma, Frederic Sala,
- Abstract要約: 大規模言語モデル(LLM)はLLM世代と応答の質を評価するために広く使われている。
PAJAMA は LLM を用いて応答を直接スコアリングするのではなく,実行可能判定プログラムを合成する新しい代替手段である。
これらの合成プログラムは、ローカルに保存および実行することができ、解釈可能で監査可能な判断ロジックを提供しながら、桁違いのコストを削減できる。
- 参考スコア(独自算出の注目度): 16.017941636877193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used to evaluate the quality of LLM generations and responses, but this leads to significant challenges: high API costs, uncertain reliability, inflexible pipelines, and inherent biases. To address these, we introduce PAJAMA (Program-As-a-Judge for Automated Model Assessment), a new alternative that uses LLMs to synthesize executable judging programs instead of directly scoring responses. These synthesized programs can be stored and run locally, costing orders of magnitude less while providing interpretable, and auditable judging logic that can be easily adapted. Program-based judges mitigate biases, improving judgment consistency by 15.83% and reducing biased responses by 23.7% on average compared to a Qwen2.5-14B-based LLM-as-a-judge. When program judgments are distilled into a model, PAJAMA outperforms LLM-as-a-judge on the challenging CHAT-HARD subset of RewardBench, outperforming metrics by 2.19% on Prometheus and 8.67% on the JudgeLM dataset, all at three orders of magnitude lower cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM世代とレスポンスの品質を評価するために広く使用されているが、これは、高いAPIコスト、不確実な信頼性、柔軟性のないパイプライン、固有のバイアスといった大きな課題につながっている。
これらの問題に対処するため, PAJAMA (Program-As-a-Judge for Automated Model Assessment) を導入する。
これらの合成プログラムは、ローカルに保存および実行することができ、解釈可能で、容易に適応可能な監査可能な判断ロジックを提供しながら、桁違いのコストを削減できる。
プログラムベースの審査員は偏見を緩和し、判定一貫性を15.83%改善し、偏見応答をQwen2.5-14BベースのLCM-as-a-judgeと比較すると平均で23.7%低減する。
プログラムの判断がモデルに蒸留されると、PAJAMAは、RewardBenchの挑戦的なCHAT-HARDサブセットでLCM-as-a-judgeを上回り、Prometheusでは2.19%、JiceLMデータセットでは8.67%、いずれも3桁のコストでパフォーマンスを上回ります。
関連論文リスト
- Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。
これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。
我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文 参考訳(メタデータ) (2025-05-21T17:48:16Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文 参考訳(メタデータ) (2025-01-24T17:01:14Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。