論文の概要: TreeRPO: Tree Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.05183v1
- Date: Thu, 05 Jun 2025 15:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.802016
- Title: TreeRPO: Tree Relative Policy Optimization
- Title(参考訳): TreeRPO: ツリー相対ポリシー最適化
- Authors: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Xiaodan Liang, Yiwei Wang, Jing Tang,
- Abstract要約: nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
- 参考スコア(独自算出の注目度): 55.97385410074841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable reasoning capabilities through Reinforcement Learning with Verifiable Rewards (RLVR) methods. However, a key limitation of existing approaches is that rewards defined at the full trajectory level provide insufficient guidance for optimizing the intermediate steps of a reasoning process. To address this, we introduce \textbf{\name}, a novel method that estimates the mathematical expectations of rewards at various reasoning steps using tree sampling. Unlike prior methods that rely on a separate step reward model, \name directly estimates these rewards through this sampling process. Building on the group-relative reward training mechanism of GRPO, \name innovatively computes rewards based on step-level groups generated during tree sampling. This advancement allows \name to produce fine-grained and dense reward signals, significantly enhancing the learning process and overall performance of LLMs. Experimental results demonstrate that our \name algorithm substantially improves the average Pass@1 accuracy of Qwen-2.5-Math on test benchmarks, increasing it from 19.0\% to 35.5\%. Furthermore, \name significantly outperforms GRPO by 2.9\% in performance while simultaneously reducing the average response length by 18.1\%, showcasing its effectiveness and efficiency. Our code will be available at \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}.
- Abstract(参考訳): LLM(Large Language Models)は、RLVR(Reinforcement Learning with Verifiable Rewards)メソッドを通じて、顕著な推論能力を示す。
しかし、既存のアプローチの鍵となる制限は、完全な軌道レベルで定義された報酬が推論過程の中間ステップを最適化するための十分なガイダンスを提供することである。
これを解決するために,木サンプリングを用いた様々な推論段階における報酬の数学的期待を推定する新しい手法である \textbf{\name} を導入する。
独立したステップ報酬モデルに依存する従来のメソッドとは異なり、 \nameはこのサンプリングプロセスを通じてこれらの報酬を直接見積もる。
GRPOのグループ相対報酬学習機構を基盤として,木サンプリング時に生成したステップレベルグループに基づいて報酬を革新的に計算する。
この進歩により、 \name は細粒度で高密度な報酬信号を生成することができ、LLM の学習プロセスと全体的な性能を大幅に向上させることができる。
実験結果から,テストベンチマークにおけるQwen-2.5-Mathの平均パス@1精度を大幅に改善し,19.0\%から35.5\%に向上した。
さらに、 \name はGRPO を2.9 %向上させ、同時に平均応答長を18.1 %削減し、その有効性と効率を示す。
私たちのコードは、 \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}で利用可能です。
関連論文リスト
- Advancing Process Verification for Large Language Models via Tree-Based Preference Learning [23.63889344974957]
Tree-based Preference Learning Verifier (Tree-PLV) は、最優先探索アルゴリズムを用いて推論木を構築し、優先訓練のためにステップレベルのペアデータを収集する新しいアプローチである。
我々は,木-PLVを算術的および常識的推論タスクの範囲で実証的に評価し,既存のベンチマークを著しく上回る結果を得た。
論文 参考訳(メタデータ) (2024-06-29T10:09:49Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。