論文の概要: TreeRL: LLM Reinforcement Learning with On-Policy Tree Search
- arxiv url: http://arxiv.org/abs/2506.11902v1
- Date: Fri, 13 Jun 2025 15:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.864268
- Title: TreeRL: LLM Reinforcement Learning with On-Policy Tree Search
- Title(参考訳): TreeRL: オンライン木探索によるLLM強化学習
- Authors: Zhenyu Hou, Ziniu Hu, Yujiang Li, Rui Lu, Jie Tang, Yuxiao Dong,
- Abstract要約: 木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。
本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。
- 参考スコア(独自算出の注目度): 36.08914596340525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with tree search has demonstrated superior performance in traditional reasoning tasks. Compared to conventional independent chain sampling strategies with outcome supervision, tree search enables better exploration of the reasoning space and provides dense, on-policy process rewards during RL training but remains under-explored in On-Policy LLM RL. We propose TreeRL, a reinforcement learning framework that directly incorporates on-policy tree search for RL training. Our approach includes intermediate supervision and eliminates the need for a separate reward model training. Existing approaches typically train a separate process reward model, which can suffer from distribution mismatch and reward hacking. We also introduce a cost-effective tree search approach that achieves higher search efficiency under the same generation token budget by strategically branching from high-uncertainty intermediate steps rather than using random branching. Experiments on challenging math and code reasoning benchmarks demonstrate that TreeRL achieves superior performance compared to traditional ChainRL, highlighting the potential of tree search for LLM. TreeRL is open-sourced at https://github.com/THUDM/TreeRL.
- Abstract(参考訳): 木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。
従来の独立系連鎖サンプリング戦略と比較して,木探索は推論空間のより優れた探索を可能にし,RLトレーニング中に密集したオンポリシィプロセス報酬を提供するが,オンポリシィLSM RLでは未探索のままである。
本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。
我々のアプローチには中間的な監督が含まれており、個別の報酬モデルトレーニングの必要性を排除しています。
既存のアプローチは通常、分散ミスマッチや報酬のハッキングに悩まされる、別々のプロセス報酬モデルをトレーニングする。
また、ランダムな分岐ではなく、不確実な中間段階から戦略的に分岐することで、同一世代のトークン予算の下で高い探索効率を実現する、コスト効率の高い木探索手法も導入する。
挑戦的な数学とコード推論ベンチマークの実験では、TreeRLは従来のChainRLよりも優れた性能を示し、LLMのツリーサーチの可能性を強調している。
TreeRLはhttps://github.com/THUDM/TreeRLでオープンソース化されている。
関連論文リスト
- Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。
私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文 参考訳(メタデータ) (2025-02-04T22:08:20Z) - RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement [82.02155942106877]
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。
この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
論文 参考訳(メタデータ) (2024-12-16T03:33:49Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。