論文の概要: MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation
- arxiv url: http://arxiv.org/abs/2502.12468v1
- Date: Tue, 18 Feb 2025 02:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:02.078824
- Title: MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation
- Title(参考訳): MCTS-Judge:コードの正確性評価のためのLCM-as-a-Judgeのテスト時間スケーリング
- Authors: Yutong Wang, Pengliang Ji, Chaoqun Yang, Kaixin Li, Ming Hu, Jiaoyang Li, Guillaume Sartoretti,
- Abstract要約: 本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。
MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。
高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
- 参考スコア(独自算出の注目度): 17.432401371613903
- License:
- Abstract: The LLM-as-a-Judge paradigm shows promise for evaluating generative content but lacks reliability in reasoning-intensive scenarios, such as programming. Inspired by recent advances in reasoning models and shifts in scaling laws, we pioneer bringing test-time computation into LLM-as-a-Judge, proposing MCTS-Judge, a resource-efficient, System-2 thinking framework for code correctness evaluation. MCTS-Judge leverages Monte Carlo Tree Search (MCTS) to decompose problems into simpler, multi-perspective evaluations. Through a node-selection strategy that combines self-assessment based on historical actions in the current trajectory and the Upper Confidence Bound for Trees based on prior rollouts, MCTS-Judge balances global optimization and refinement of the current trajectory. We further designed a high-precision, unit-test-level reward mechanism to encourage the Large Language Model (LLM) to perform line-by-line analysis. Extensive experiments on three benchmarks and five LLMs demonstrate the effectiveness of MCTS-Judge, which improves the base model's accuracy from 41% to 80%, surpassing the o1-series models with 3x fewer tokens. Further evaluations validate the superiority of its reasoning trajectory in logic, analytics, thoroughness, and overall quality, while revealing the test-time scaling law of the LLM-as-a-Judge paradigm.
- Abstract(参考訳): LLM-as-a-Judgeパラダイムは、生成的コンテンツを評価することを約束するが、プログラミングのような推論集約的なシナリオでは信頼性に欠ける。
LLM-as-a-Judgeにテストタイム計算を導入し、MCTS-Judgeを提案しました。
MCTS-Judgeはモンテカルロ木探索(MCTS)を利用して、問題をより単純で多視点的な評価に分解する。
現在の軌道における歴史的行動に基づく自己評価と,事前のロールアウトに基づく樹上信頼境界を組み合わせたノード選択戦略により,MCTS-Judgeは,現在の軌道のグローバルな最適化と洗練を両立させる。
さらに,Large Language Model (LLM) のライン・バイ・ライン解析を奨励するために,高精度かつ単体テストレベルの報酬機構を設計した。
3つのベンチマークと5つのLCMによる大規模な実験では、MCTS-Judgeの有効性が示され、基本モデルの精度は41%から80%に向上し、3倍少ないトークンを持つo1シリーズモデルを上回った。
さらに、LLM-as-a-Judgeパラダイムの試験時間スケーリング則を明らかにするとともに、論理、分析、徹底性、全体的な品質における推論軌道の優位性を検証した。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は、大規模言語モデルに固有の能力として自己補正を組み込む。
CoSCは一連の自己補正段階を通して機能する。
実験により、CoSCは標準的な数学的データセットの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Interpretable Contrastive Monte Carlo Tree Search Reasoning [25.11379135302235]
大規模言語モデル(LLM)のための新しいモンテカルロ木探索法(MCTS)を提案する。
SC-MCTSは推論精度と速度の両方を著しく改善することを示した。
我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
論文 参考訳(メタデータ) (2024-10-02T16:15:31Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。