論文の概要: IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03468v1
- Date: Tue, 03 Feb 2026 12:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.447243
- Title: IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning
- Title(参考訳): IntentRL:強化学習によるオープンエンドディープリサーチのための積極的なユーザインテリジェントエージェントの訓練
- Authors: Haohao Luo, Zexi Li, Yuexiang Xie, Wenhao Zhang, Yaliang Li, Ying Shen,
- Abstract要約: Deep Research (DR)エージェントは、パラメトリック知識を超えてLarge Language Models (LLM)を拡張する。
リアルタイムの会話アシスタントとは異なり、DRは計算に高価で時間を要する。
IntentRLは、長期研究を始める前に、潜在ユーザ意図を明らかにするためにプロアクティブエージェントを訓練するフレームワークである。
- 参考スコア(独自算出の注目度): 54.21689544323704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Research (DR) agents extend Large Language Models (LLMs) beyond parametric knowledge by autonomously retrieving and synthesizing evidence from large web corpora into long-form reports, enabling a long-horizon agentic paradigm. However, unlike real-time conversational assistants, DR is computationally expensive and time-consuming, creating an autonomy-interaction dilemma: high autonomy on ambiguous user queries often leads to prolonged execution with unsatisfactory outcomes. To address this, we propose IntentRL, a framework that trains proactive agents to clarify latent user intents before starting long-horizon research. To overcome the scarcity of open-ended research data, we introduce a scalable pipeline that expands a few seed samples into high-quality dialogue turns via a shallow-to-deep intent refinement graph. We further adopt a two-stage reinforcement learning (RL) strategy: Stage I applies RL on offline dialogues to efficiently learn general user-interaction behavior, while Stage II uses the trained agent and a user simulator for online rollouts to strengthen adaptation to diverse user feedback. Extensive experiments show that IntentRL significantly improves both intent hit rate and downstream task performance, outperforming the built-in clarify modules of closed-source DR agents and proactive LLM baselines.
- Abstract(参考訳): Deep Research (DR) エージェントは、大規模ウェブコーパスから証拠を自律的に抽出し合成し、長期にわたるエージェントパラダイムを実現することで、パラメトリックな知識を超えた大規模言語モデル(LLM)を拡張している。
しかし、リアルタイムの会話アシスタントとは異なり、DRは計算に高価で時間を要するため、自律的な相互作用のジレンマを生み出す。
そこで本研究では,長期研究を始める前に,アクティブエージェントを訓練して潜在ユーザ意図を明らかにするフレームワークであるIntentRLを提案する。
オープンエンドの研究データの不足を克服するため,浅層から深層へのインテントリファインメント・リファインメント・グラフを通じて,いくつかのシードサンプルを高品質なダイアログ・ターンに拡張するスケーラブルなパイプラインを導入する。
さらに,2段階強化学習(RL)戦略を採用する。ステージIではオフライン対話にRLを適用し,一般的なユーザインタラクション動作を効率的に学習し,ステージIIではトレーニングエージェントとユーザシミュレータをオンラインロールアウトに使用して,多様なユーザフィードバックへの適応を強化する。
拡張実験により,IntentRLはインテントヒット率とダウンストリームタスク性能を著しく向上し,クローズドソースDRエージェントとプロアクティブLDMベースラインの組込みモジュールよりも優れた性能を示した。
関連論文リスト
- ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。