論文の概要: TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG
- arxiv url: http://arxiv.org/abs/2601.06922v1
- Date: Sun, 11 Jan 2026 14:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.069167
- Title: TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG
- Title(参考訳): TreePS-RAG: エージェントRAGにおける強化学習のためのツリーベースプロセススーパービジョン
- Authors: Tianhua Zhang, Kun Li, Junan Li, Yunxiang Li, Hongyin Luo, Xixin Wu, James Glass, Helen Meng,
- Abstract要約: エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
- 参考スコア(独自算出の注目度): 71.06073770344732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic retrieval-augmented generation (RAG) formulates question answering as a multi-step interaction between reasoning and information retrieval, and has recently been advanced by reinforcement learning (RL) with outcome-based supervision. While effective, relying solely on sparse final rewards limits step-wise credit assignment and provides weak guidance for intermediate reasoning and actions. Recent efforts explore process-level supervision, but typically depend on offline constructed training data, which risks distribution shift, or require costly intermediate annotations. We present TreePS-RAG, an online, tree-based RL framework for agentic RAG that enables step-wise credit assignment while retaining standard outcome-only rewards. Our key insight is to model agentic RAG reasoning as a rollout tree, where each reasoning step naturally maps to a node. This tree structure allows step utility to be estimated via Monte Carlo estimation over its descendant outcomes, yielding fine-grained process advantages without requiring intermediate labels. To make this paradigm practical, we introduce an efficient online tree construction strategy that preserves exploration diversity under a constrained computational budget. With a rollout cost comparable to strong baselines like Search-R1, experiments on seven multi-hop and general QA benchmarks across multiple model scales show that TreePS-RAG consistently and significantly outperforms both outcome-supervised and leading process-supervised RL methods.
- Abstract(参考訳): エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化し、近年は強化学習(RL)と結果に基づく監視によって進歩している。
効果はあるが、粗末な最終報酬にのみ依存することは、段階的なクレジット割り当てを制限し、中間的推論と行動のための弱いガイダンスを提供する。
近年の取り組みではプロセスレベルの監視について検討されているが、通常はオフラインで構築されたトレーニングデータに依存している。
TreePS-RAGはエージェントRAGのためのオンラインのツリーベースRLフレームワークで、標準的な結果のみの報酬を維持しながら段階的なクレジット割り当てを可能にする。
我々の重要な洞察は、エージェントRAG推論をロールアウトツリーとしてモデル化することであり、各推論ステップが自然にノードにマップされる。
この木構造により、ステップユーティリティはモンテカルロの推定により、その子孫の成果を推定することができ、中間ラベルを必要とせずに、きめ細かいプロセスの利点を得ることができる。
このパラダイムを実用的なものにするために,制約された計算予算の下で探索の多様性を維持する効率的なオンラインツリー構築戦略を導入する。
Search-R1のような強力なベースラインに匹敵するロールアウトコストで、複数のモデルスケールにわたる7つのマルチホップおよび一般的なQAベンチマークの実験により、TreePS-RAGは、結果管理とプロセス管理のRLメソッドの両方において、一貫して、大幅にパフォーマンスが向上していることが示された。
関連論文リスト
- Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRL: LLM Reinforcement Learning with On-Policy Tree Search [36.08914596340525]
木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。
本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:52:37Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。