論文の概要: RTLC -- Research, Teach-to-Learn, Critique: A three-stage prompting paradigm inspired by the Feynman Learning Technique that lifts LLM-as-judge accuracy on JudgeBench with no fine-tuning
- arxiv url: http://arxiv.org/abs/2605.13695v1
- Date: Wed, 13 May 2026 15:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.154579
- Title: RTLC -- Research, Teach-to-Learn, Critique: A three-stage prompting paradigm inspired by the Feynman Learning Technique that lifts LLM-as-judge accuracy on JudgeBench with no fine-tuning
- Title(参考訳): RTLC -- Research, Teach-to-Learn, Critique: An three-stage prompting paradigm by the Feynman Learning Technique that lifts LLM-as-judge accuracy on judgeBench without no fine-tuning
- Authors: Andrea Morandi,
- Abstract要約: RTLC は単一のブラックボックス LLM を微調整、検索、外部ツールのないアンサンブル・オブ・シント・ジャッジにプロモートする。
RTLCがN=10の得票率(77.7%)とゼロショット第1候補(74.0%)を破る
RTLCは、ポストホックの判定スコアの校正で構成され、2つの介入が実際に乗法的に合成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-judge is now the default measurement instrument for open-ended generation, but on the public JudgeBench benchmark even strong instruction-tuned judges barely scrape past random on objective-correctness pairwise items. We introduce RTLC, a three-stage prompting recipe -- Research, Teach-to-Learn, Critique -- that promotes a single black-box LLM into an ensemble-of-thought judge with no fine-tuning, retrieval, or external tools. Stage 1 wraps the input in a fixed pedagogical scaffold porting the Feynman Learning Technique (study $\to$ teach $\to$ find gaps $\to$ simplify) into LLM prompting. Stage 2 draws N=10 independent candidate verdicts at temperature 0.4. Stage 3 acts as its own critic, cross-comparing the candidate set against the original question to emit one critiqued verdict at temperature 0. On JudgeBench-GPT (350 hard pairwise items), Claude 3.7 Sonnet's pairwise accuracy climbs from 64.6% (single-shot vanilla prompt) to 78.6% (RTLC critique-of-10) -- an absolute 14.0-percentage-point gain. RTLC also beats N=10 self-consistency majority voting (77.7%) and a zero-shot first candidate (74.0%). A clean three-step ablation attributes +9.4 pp to the Teach-to-Learn scaffold, +3.7 pp to N=10 marginalisation, and +0.9 pp to explicit critique. We discuss the cost-accuracy frontier (RTLC sits above self-consistency at every working point), the error-budget breakdown across the four JudgeBench categories (knowledge, reasoning, math, coding), and how RTLC composes orthogonally with post-hoc judge-score calibration, with the two interventions compounding multiplicatively in practice.
- Abstract(参考訳): LLM-as-a-judgeは現在、オープン・エンド・ジェネレーションのデフォルトの計測器となっているが、公開ジャッジベンチのベンチマークでは、強い命令で調整された裁判官でさえ、客観的な正当性のある項目について、ほとんどランダムにスクラップしている。
RTLC(Research, Teach-to-Learn, Critique)という3段階のプロンプトレシピを紹介します。
ステージ1は、入力をFeynman Learning Technique(study $\to$ teach $\to$ find gaps $\to$ simplify)をLLMプロンプトに移植する固定された教育的な足場にラップする。
ステージ2は温度0.4でN=10の独立候補を判定する。
ステージ3は、オリジナルの質問に対して設定された候補を相互比較して、温度0。
ジャッジベンチ-GPT(350個のハードペアアイテム)では、クロード3.7ソネットのペアワイド精度は64.6%(単発バニラプロンプト)から78.6%(RTLC critique-of-10)へと上昇し、絶対14.0ポイントのゲインとなった。
RTLCは、N=10の得票率(77.7%)とゼロショットの第1候補(74.0%)も破っている。
清潔な3段階のアブレーションは、Teach-to-Learnの足場に+9.4 pp、N=10の辺縁化に+3.7 pp、明示的な批判に+0.9 ppである。
作業点ごとの自己整合性よりも高いコスト・精度フロンティア(RTLC),4つのジャッジベンチカテゴリ(知識,推論,数学,コーディング)の誤差・予算の分解,およびRTLCがポストホック判定スコア校正と直交的にどのように構成し,実際に2つの介入が乗法的に合成されるかについて議論する。
関連論文リスト
- An Empirical Investigation of Practical LLM-as-a-Judge Improvement Techniques on RewardBench 2 [0.0]
微調整なしでRewardBench 2のGPT-5.4判定精度を向上させる手法を提案する。
2つのテクニックは、タスク固有の基準注入とアンサンブルスコアという、ほぼすべての利得を考慮に入れている。
さらに3つのテクニックは、基準とアンサンブルを同等のコストで確実に改善しなかった。
論文 参考訳(メタデータ) (2026-04-15T10:52:33Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。