Fugu-MT 論文翻訳(概要): TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

論文の概要: TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

arxiv url: http://arxiv.org/abs/2506.11902v1
Date: Fri, 13 Jun 2025 15:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.864268
Title: TreeRL: LLM Reinforcement Learning with On-Policy Tree Search
Title（参考訳）: TreeRL: オンライン木探索によるLLM強化学習
Authors: Zhenyu Hou, Ziniu Hu, Yujiang Li, Rui Lu, Jie Tang, Yuxiao Dong,
Abstract要約: 木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。
参考スコア（独自算出の注目度）: 36.08914596340525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) with tree search has demonstrated superior performance in traditional reasoning tasks. Compared to conventional independent chain sampling strategies with outcome supervision, tree search enables better exploration of the reasoning space and provides dense, on-policy process rewards during RL training but remains under-explored in On-Policy LLM RL. We propose TreeRL, a reinforcement learning framework that directly incorporates on-policy tree search for RL training. Our approach includes intermediate supervision and eliminates the need for a separate reward model training. Existing approaches typically train a separate process reward model, which can suffer from distribution mismatch and reward hacking. We also introduce a cost-effective tree search approach that achieves higher search efficiency under the same generation token budget by strategically branching from high-uncertainty intermediate steps rather than using random branching. Experiments on challenging math and code reasoning benchmarks demonstrate that TreeRL achieves superior performance compared to traditional ChainRL, highlighting the potential of tree search for LLM. TreeRL is open-sourced at https://github.com/THUDM/TreeRL.
Abstract（参考訳）: 木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。従来の独立系連鎖サンプリング戦略と比較して,木探索は推論空間のより優れた探索を可能にし,RLトレーニング中に密集したオンポリシィプロセス報酬を提供するが,オンポリシィLSM RLでは未探索のままである。本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。我々のアプローチには中間的な監督が含まれており、個別の報酬モデルトレーニングの必要性を排除しています。既存のアプローチは通常、分散ミスマッチや報酬のハッキングに悩まされる、別々のプロセス報酬モデルをトレーニングする。また、ランダムな分岐ではなく、不確実な中間段階から戦略的に分岐することで、同一世代のトークン予算の下で高い探索効率を実現する、コスト効率の高い木探索手法も導入する。挑戦的な数学とコード推論ベンチマークの実験では、TreeRLは従来のChainRLよりも優れた性能を示し、LLMのツリーサーチの可能性を強調している。 TreeRLはhttps://github.com/THUDM/TreeRLでオープンソース化されている。

関連論文リスト

Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文参考訳（メタデータ） (2025-02-04T22:08:20Z)
RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement [82.02155942106877]
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
論文参考訳（メタデータ） (2024-12-16T03:33:49Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。 ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文参考訳（メタデータ） (2024-06-06T07:40:00Z)
RLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。 RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。 EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文参考訳（メタデータ） (2022-10-31T06:45:05Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)
Decoupling Exploration and Exploitation in Reinforcement Learning [8.946655323517092]
本稿では、探索と搾取のための個別の政策を訓練するDecoupled RL(DeRL)を提案する。複数種類の内因性報酬を持つ2つのスパース・リワード環境におけるDeRLアルゴリズムの評価を行った。
論文参考訳（メタデータ） (2021-07-19T15:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。