Fugu-MT 論文翻訳(概要): RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation

論文の概要: RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation

arxiv url: http://arxiv.org/abs/2511.19895v1
Date: Tue, 25 Nov 2025 04:06:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.265079
Title: RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation
Title（参考訳）: RPM-MCTS:モンテカルロ木探索によるコード生成のためのプロセスリワードモデルとしての知識検索
Authors: Yuanyuan Lin, Xiangyu Ouyang, Teng Zhang, Kaixin Sui,
Abstract要約: RPM-MCTSはモンテカルロ木探索に基づくプロセスリワードモデルとして知識検索を利用する効果的な手法である。 RPM-MCTSは, トークン消費の約15%削減を達成しつつ, 現在の最先端手法よりも優れていた。
参考スコア（独自算出の注目度）: 5.882211463956185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tree search-based methods have made significant progress in enhancing the code generation capabilities of large language models. However, due to the difficulty in effectively evaluating intermediate algorithmic steps and the inability to locate and timely correct erroneous steps, these methods often generate incorrect code and incur increased computational costs. To tackle these problems, we propose RPM-MCTS, an effective method that utilizes Knowledge-Retrieval as Process Reward Model based on Monte Carlo Tree Search to evaluate intermediate algorithmic steps. By utilizing knowledge base retrieval, RPM-MCTS avoids the complex training of process reward models. During the expansion phase, similarity filtering is employed to remove redundant nodes, ensuring diversity in reasoning paths. Furthermore, our method utilizes sandbox execution feedback to locate erroneous algorithmic steps during generation, enabling timely and targeted corrections. Extensive experiments on four public code generation benchmarks demonstrate that RPM-MCTS outperforms current state-of-the-art methods while achieving an approximately 15% reduction in token consumption. Furthermore, full fine-tuning of the base model using the data constructed by RPM-MCTS significantly enhances its code capabilities.
Abstract（参考訳）: 木探索に基づく手法は,大規模言語モデルのコード生成能力の向上に大きく貢献している。しかし、中間アルゴリズムのステップを効果的に評価することは困難であり、誤ったステップの発見とタイムリーな修正ができないため、これらの手法はしばしば間違ったコードを生成し、計算コストを増大させる。これらの問題に対処するために,モンテカルロ木探索に基づく知識検索をプロセスリワードモデルとして活用し,中間アルゴリズムのステップを評価する手法であるRPM-MCTSを提案する。知識ベース検索を利用することで、RPM-MCTSはプロセス報酬モデルの複雑なトレーニングを避けることができる。拡張フェーズでは、類似度フィルタリングを使用して冗長ノードを除去し、推論パスの多様性を保証する。さらに、サンドボックス実行フィードバックを用いて、生成中の誤ったアルゴリズムステップを検知し、タイムリーかつターゲットの修正を可能にする。 4つの公開コード生成ベンチマークの大規模な実験により、RPM-MCTSは現在の最先端の手法より優れており、トークン消費の約15%削減を実現している。さらに、RPM-MCTSによって構築されたデータを用いたベースモデルの完全な微調整は、コード機能を大幅に向上させる。

関連論文リスト

From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。 AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文参考訳（メタデータ） (2025-09-29T06:52:35Z)
ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding [15.051729280454454]
本稿では,統一LLM RLパラダイムであるReST-RLを紹介する。改良されたGRPOアルゴリズムと、値モデル(VM)が補助する精密に設計されたテスト時間復号法を組み合わせる。提案するRLパラダイムの有効性を検証するために,符号化問題に関する広範な実験を行った。
論文参考訳（メタデータ） (2025-08-27T05:16:03Z)
Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。 R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。 MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文参考訳（メタデータ） (2025-07-08T00:41:12Z)
Accelerating Model-Based Reinforcement Learning using Non-Linear Trajectory Optimization [2.1386708011362257]
本稿ではモンテカルロ確率的学習制御(MC-PILCO)の政策最適化の緩やかな収束について述べる。非線形システムに適した高速軌道最適化法である反復線形擬似レギュレータ (iLQR) と統合する。 EB-MC-PILCOが標準のMC-PILCOに比べて収束を加速することを示す。
論文参考訳（メタデータ） (2025-06-03T11:30:59Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文参考訳（メタデータ） (2025-03-26T17:46:08Z)
Reward-Centered ReST-MCTS: A Robust Decision-Making Framework for Robotic Manipulation in High Uncertainty Environments [0.0]
本稿では,モンテカルロ木探索を強化する新しいフレームワークであるReward-Centered ReST-MCTSを紹介する。提案手法のコアはRewarding Centerであり,部分的な報酬を動的に割り当てることで探索軌道を洗練させる。ベースライン法と比較して,本フレームワークは計算可能性を維持しつつ,2～4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-03-07T08:25:04Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文参考訳（メタデータ） (2023-01-28T04:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。