Fugu-MT 論文翻訳(概要): TreeRPO: Tree Relative Policy Optimization

論文の概要: TreeRPO: Tree Relative Policy Optimization

arxiv url: http://arxiv.org/abs/2506.05183v1
Date: Thu, 05 Jun 2025 15:56:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.802016
Title: TreeRPO: Tree Relative Policy Optimization
Title（参考訳）: TreeRPO: ツリー相対ポリシー最適化
Authors: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Xiaodan Liang, Yiwei Wang, Jing Tang,
Abstract要約: nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
参考スコア（独自算出の注目度）: 55.97385410074841
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown remarkable reasoning capabilities through Reinforcement Learning with Verifiable Rewards (RLVR) methods. However, a key limitation of existing approaches is that rewards defined at the full trajectory level provide insufficient guidance for optimizing the intermediate steps of a reasoning process. To address this, we introduce \textbf{\name}, a novel method that estimates the mathematical expectations of rewards at various reasoning steps using tree sampling. Unlike prior methods that rely on a separate step reward model, \name directly estimates these rewards through this sampling process. Building on the group-relative reward training mechanism of GRPO, \name innovatively computes rewards based on step-level groups generated during tree sampling. This advancement allows \name to produce fine-grained and dense reward signals, significantly enhancing the learning process and overall performance of LLMs. Experimental results demonstrate that our \name algorithm substantially improves the average Pass@1 accuracy of Qwen-2.5-Math on test benchmarks, increasing it from 19.0\% to 35.5\%. Furthermore, \name significantly outperforms GRPO by 2.9\% in performance while simultaneously reducing the average response length by 18.1\%, showcasing its effectiveness and efficiency. Our code will be available at \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}.
Abstract（参考訳）: LLM(Large Language Models)は、RLVR(Reinforcement Learning with Verifiable Rewards)メソッドを通じて、顕著な推論能力を示す。しかし、既存のアプローチの鍵となる制限は、完全な軌道レベルで定義された報酬が推論過程の中間ステップを最適化するための十分なガイダンスを提供することである。これを解決するために,木サンプリングを用いた様々な推論段階における報酬の数学的期待を推定する新しい手法である \textbf{\name} を導入する。独立したステップ報酬モデルに依存する従来のメソッドとは異なり、 \nameはこのサンプリングプロセスを通じてこれらの報酬を直接見積もる。 GRPOのグループ相対報酬学習機構を基盤として,木サンプリング時に生成したステップレベルグループに基づいて報酬を革新的に計算する。この進歩により、 \name は細粒度で高密度な報酬信号を生成することができ、LLM の学習プロセスと全体的な性能を大幅に向上させることができる。実験結果から,テストベンチマークにおけるQwen-2.5-Mathの平均パス@1精度を大幅に改善し,19.0\%から35.5\%に向上した。さらに、 \name はGRPO を2.9 %向上させ、同時に平均応答長を18.1 %削減し、その有効性と効率を示す。私たちのコードは、 \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}で利用可能です。

関連論文リスト

Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。 DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文参考訳（メタデータ） (2024-08-21T05:09:53Z)
Advancing Process Verification for Large Language Models via Tree-Based Preference Learning [23.63889344974957]
Tree-based Preference Learning Verifier (Tree-PLV) は、最優先探索アルゴリズムを用いて推論木を構築し、優先訓練のためにステップレベルのペアデータを収集する新しいアプローチである。我々は,木-PLVを算術的および常識的推論タスクの範囲で実証的に評価し,既存のベンチマークを著しく上回る結果を得た。
論文参考訳（メタデータ） (2024-06-29T10:09:49Z)
Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-16T09:06:17Z)
ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。 ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文参考訳（メタデータ） (2024-06-06T07:40:00Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。