論文の概要: Reinforcement Learning for Long-Horizon Multi-Turn Search Agents
- arxiv url: http://arxiv.org/abs/2510.24126v1
- Date: Tue, 28 Oct 2025 07:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.821509
- Title: Reinforcement Learning for Long-Horizon Multi-Turn Search Agents
- Title(参考訳): 長軸多軸探索エージェントの強化学習
- Authors: Vivek Kalyan, Martin Andrews,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑なタスクを解決するために複数のターンとツールを利用できる。
この研究は、強化学習が経験から学ぶことによって、能力を大幅に推し進めることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents can leverage multiple turns and tools to solve complex tasks, with prompt-based approaches achieving strong performance. This work demonstrates that Reinforcement Learning (RL) can push capabilities significantly further by learning from experience. Through experiments on a legal document search benchmark, we show that our RL-trained 14 Billion parameter model outperforms frontier class models (85% vs 78% accuracy). In addition, we explore turn-restricted regimes, during training and at test-time, that show these agents achieve better results if allowed to operate over longer multi-turn horizons.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なタスクを解決するために複数のターンとツールを利用できる。
この研究は、RL(Reinforcement Learning)が経験から学ぶことによって、能力をさらに推し進めることができることを示した。
法的な文書検索ベンチマークの実験により、我々のRLで訓練された14億のパラメータモデルがフロンティアクラスモデル(精度85%対78%)より優れていることを示した。
さらに、トレーニング中およびテスト時に、より長いマルチターン地平線上での操作が可能であれば、これらのエージェントがより良い結果が得られることを示すターン制限されたレギュレーションを探索する。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2025-06-30T09:02:45Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。
RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。
我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。
RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文 参考訳(メタデータ) (2024-11-13T07:24:14Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。