論文の概要: Exploiting LLM-as-a-Judge Disposition on Free Text Legal QA via Prompt Optimization
- arxiv url: http://arxiv.org/abs/2604.20726v2
- Date: Thu, 23 Apr 2026 08:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.061778
- Title: Exploiting LLM-as-a-Judge Disposition on Free Text Legal QA via Prompt Optimization
- Title(参考訳): プロンプト最適化によるLLM-as-a-Judge Disposition on Free Text Legal QA
- Authors: Mohamed Hesham Elganayni, Runsheng Chen, Sebastian Nagl, Matthias Grabmair,
- Abstract要約: 本研究は,LLM-as-a-Judge評価における自由テキスト法定質問応答における迅速な設計と判断選択の役割について検討する。
自動タスクプロンプト最適化が人間中心設計よりも優れているか, 判断フィードバックスタイルによって最適化の有効性が変化するか, 判断者間での転送が最適化されるかを検討する。
- 参考スコア(独自算出の注目度): 9.980463738635718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the role of prompt design and judge selection in LLM-as-a-Judge evaluations of free text legal question answering. We examine whether automatic task prompt optimization improves over human-centered design, whether optimization effectiveness varies by judge feedback style, and whether optimized prompts transfer across judges. We systematically address these questions on the LEXam benchmark by optimizing task prompts using the ProTeGi method with feedback from two judges (Qwen3-32B, DeepSeek-V3) across four task models, and then testing cross-judge transfer. Automatic optimization consistently outperforms the baseline, with lenient judge feedback yielding higher and more consistent gains than strict judge feedback. Prompts optimized with lenient feedback transfer better to strict judges than the reverse direction. Analysis reveals that lenient judges provide permissive feedback, yielding prompts with broader applicability, whereas strict judges produce restrictive feedback, leading to judge-specific overfitting. Our findings demonstrate algorithmically optimizing prompts on training data can outperform human-centered prompt design and that judges' dispositions during optimization shape prompt generalizability.
- Abstract(参考訳): 本研究は,LLM-as-a-Judge評価における自由テキスト法定質問応答における迅速な設計と判断選択の役割について検討する。
自動タスクプロンプト最適化が人間中心設計よりも優れているか, 判断フィードバックスタイルによって最適化の有効性が変化するか, 判断者間での転送が最適化されるかを検討する。
本稿では,2人の審査員(Qwen3-32B,DeepSeek-V3)からのフィードバックでProTeGi法によるタスクプロンプトを最適化し,これらの質問をLEXamベンチマーク上で体系的に解決し,クロスジャッジ転送をテストする。
自動最適化は、厳格な判断フィードバックよりも高い、より一貫した利得をもたらす、寛大な判断フィードバックによって、ベースラインを一貫して上回る。
寛大なフィードバック伝達に最適化されたプロンプトは、逆方向よりも厳格な判断に優れている。
分析によれば、寛大な裁判官は寛大なフィードバックを提供し、より広い適用性を持つプロンプトを得られるのに対し、厳格な裁判官は限定的なフィードバックを生成し、裁判官固有の過度な適合をもたらす。
本研究は,学習データに対するアルゴリズム的最適化プロンプトが,人間中心のプロンプト設計より優れ,最適化時の判断者が一般化し易いことを示すものである。
関連論文リスト
- Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge [21.61898421774144]
大規模言語モデル(LLM)はAI生成コンテンツを評価するための自動判断器として広く採用されている。
彼らの成功にもかかわらず、LLMに基づく評価と人間の判断を合わせることは依然として困難である。
評価関連視覚的手がかりを保ちながら、画像をテキスト表現に変換する双方向プロンプト最適化フレームワークBLPOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:22:13Z) - MR. Judge: Multimodal Reasoner as a Judge [23.787019892923784]
本稿では,Multimodal Reasoner as a judge (MR. judge) を提案する。
各応答にスコアを直接割り当てる代わりに、判断過程を推論に着想を得た多重選択問題として定式化する。
この推論プロセスは、判断の解釈性を向上するだけでなく、MLLM審査員のパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-19T17:37:39Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。