Fugu-MT 論文翻訳(概要): MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation

論文の概要: MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation

arxiv url: http://arxiv.org/abs/2502.12468v1
Date: Tue, 18 Feb 2025 02:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.750386
Title: MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation
Title（参考訳）: MCTS-Judge:コードの正確性評価のためのLCM-as-a-Judgeのテスト時間スケーリング
Authors: Yutong Wang, Pengliang Ji, Chaoqun Yang, Kaixin Li, Ming Hu, Jiaoyang Li, Guillaume Sartoretti,
Abstract要約: 本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。 MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
参考スコア（独自算出の注目度）: 17.432401371613903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The LLM-as-a-Judge paradigm shows promise for evaluating generative content but lacks reliability in reasoning-intensive scenarios, such as programming. Inspired by recent advances in reasoning models and shifts in scaling laws, we pioneer bringing test-time computation into LLM-as-a-Judge, proposing MCTS-Judge, a resource-efficient, System-2 thinking framework for code correctness evaluation. MCTS-Judge leverages Monte Carlo Tree Search (MCTS) to decompose problems into simpler, multi-perspective evaluations. Through a node-selection strategy that combines self-assessment based on historical actions in the current trajectory and the Upper Confidence Bound for Trees based on prior rollouts, MCTS-Judge balances global optimization and refinement of the current trajectory. We further designed a high-precision, unit-test-level reward mechanism to encourage the Large Language Model (LLM) to perform line-by-line analysis. Extensive experiments on three benchmarks and five LLMs demonstrate the effectiveness of MCTS-Judge, which improves the base model's accuracy from 41% to 80%, surpassing the o1-series models with 3x fewer tokens. Further evaluations validate the superiority of its reasoning trajectory in logic, analytics, thoroughness, and overall quality, while revealing the test-time scaling law of the LLM-as-a-Judge paradigm.
Abstract（参考訳）: LLM-as-a-Judgeパラダイムは、生成的コンテンツを評価することを約束するが、プログラミングのような推論集約的なシナリオでは信頼性に欠ける。 LLM-as-a-Judgeにテストタイム計算を導入し、MCTS-Judgeを提案しました。 MCTS-Judgeはモンテカルロ木探索(MCTS)を利用して、問題をより単純で多視点的な評価に分解する。現在の軌道における歴史的行動に基づく自己評価と,事前のロールアウトに基づく樹上信頼境界を組み合わせたノード選択戦略により,MCTS-Judgeは,現在の軌道のグローバルな最適化と洗練を両立させる。さらに,Large Language Model (LLM) のライン・バイ・ライン解析を奨励するために,高精度かつ単体テストレベルの報酬機構を設計した。 3つのベンチマークと5つのLCMによる大規模な実験では、MCTS-Judgeの有効性が示され、基本モデルの精度は41%から80%に向上し、3倍少ないトークンを持つo1シリーズモデルを上回った。さらに、LLM-as-a-Judgeパラダイムの試験時間スケーリング則を明らかにするとともに、論理、分析、徹底性、全体的な品質における推論軌道の優位性を検証した。

関連論文リスト

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge [44.6358611761225]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な知性を示してきた。これらのシステムは、評価結果を操作できる敵攻撃の影響を受けやすい。 LLMに基づく審査員による既存の評価手法は、しばしば断片的であり、包括的な評価のための統一された枠組みが欠如している。
論文参考訳（メタデータ） (2025-06-11T06:48:57Z)
J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge [24.607213170485743]
本稿では,リジェクションサンプリングによって収集されたリフレクション強化データセットを教師付きで調整した$textbfJ1-7B$を紹介する。推論時に、さらなるパフォーマンス改善のためにシンプルなテスト時間スケーリング(STTS)戦略を適用します。実験の結果、$textbfJ1-7B$は、以前の最先端のLM-as-a-Judgeを$ textbf4.8$%超え、STTSの下でより強いスケーリング傾向を示す。
論文参考訳（メタデータ） (2025-05-17T06:58:42Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Prism: Dynamic and Flexible Benchmarking of LLMs Code Generation with Monte Carlo Tree Search [13.135962181354465]
静的ベンチマークは、LLM(Large Language Models)の機能の深さと幅を捉えていない。包括的LLM評価のために設計されたフレキシブルで動的なベンチマークフレームワークであるPrismを紹介する。 Prismは,(1)マルコフ決定過程として評価をモデル化した木に基づく状態表現,(2)困難な評価シナリオを明らかにするために適応したモンテカルロ木探索アルゴリズム,(3)多様な能力の同時評価を可能にするマルチエージェント評価パイプラインである。
論文参考訳（メタデータ） (2025-04-07T20:53:18Z)
ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文参考訳（メタデータ） (2025-02-28T09:12:42Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-30T02:21:59Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。 G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は、大規模言語モデルに固有の能力として自己補正を組み込む。 CoSCは一連の自己補正段階を通して機能する。実験により、CoSCは標準的な数学的データセットの性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-10-14T17:16:44Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。