論文の概要: TGPR: Tree-Guided Policy Refinement for Robust Self-Debugging of LLMs
- arxiv url: http://arxiv.org/abs/2510.06878v1
- Date: Wed, 08 Oct 2025 10:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.443166
- Title: TGPR: Tree-Guided Policy Refinement for Robust Self-Debugging of LLMs
- Title(参考訳): TGPR:LLMのロバスト自己デバッグのためのツリーガイド型ポリシーリファインメント
- Authors: Daria Ozerova, Ekaterina Trofimova,
- Abstract要約: 本稿では,GRPOとThompson-Samplingベースの木探索を組み合わせた新しいフレームワークであるTree-Guided Policy Refinement(TGPR)を紹介する。
また,HumanEval,MBPP,APPSのベンチマークでは,最大4.2ポイントのpass@1(MBPP)絶対改善を達成し,最大12.51ポイントのpass@10(APPS)絶対改善を競合GRPOベースラインと比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative refinement has been a promising paradigm to enable large language models (LLMs) to resolve difficult reasoning and problem-solving tasks. One of the key challenges, however, is how to effectively search through the enormous search space of possible refinements. Existing methods typically fall back on predefined heuristics, which are troubled by the exploration-exploitation dilemma and cannot adapt based on past refinement outcomes. We introduce Tree-Guided Policy Refinement (TGPR), a novel framework that combines GRPO with a Thompson-Sampling-based tree search. TGPR explores both failed and successful refinement paths actively, with denser training trajectories and more adaptive policies. On HumanEval, MBPP, and APPS benchmarks, our method achieves up to +4.2 percentage points absolute improvement in pass@1 (on MBPP) and up to +12.51 percentage points absolute improvement in pass@10 (on APPS) compared to a competitive GRPO baseline. Apart from debugging code, TGPR focuses on a principled approach to combining learned policies with structured search methods, offering a general framework for enhancing iterative refinement and stateful reasoning in LLMs.
- Abstract(参考訳): 反復的改良は、大きな言語モデル(LLM)が困難な推論と問題解決タスクを解決できるようにするための有望なパラダイムである。
しかし、重要な課題の1つは、改良の余地のある巨大な検索空間を効果的に検索する方法だ。
既存の手法は、探索と探索のジレンマに悩まされ、過去の洗練された結果に基づいて適応できない、定義済みのヒューリスティックに逆らうのが一般的である。
本稿では,GRPOとThompson-Samplingをベースとしたツリー検索を組み合わせた新しいフレームワークであるTree-Guided Policy Refinement(TGPR)を紹介する。
TGPRは、より密集した訓練軌跡とより適応的な政策により、失敗と成功の両方を積極的に調査する。
また,HumanEval,MBPP,APPSのベンチマークでは,最大4.2ポイントのpass@1(MBPP)絶対改善を達成し,最大12.51ポイントのpass@10(APPS)絶対改善を競合GRPOベースラインと比較した。
TGPRは、コードのデバッグとは別に、学習したポリシーと構造化された検索手法を組み合わせるための原則的なアプローチに重点を置いており、LLMにおける反復的洗練とステートフルな推論を強化するための一般的なフレームワークを提供している。
関連論文リスト
- GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文 参考訳(メタデータ) (2025-07-25T17:42:32Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。