論文の概要: Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL
- arxiv url: http://arxiv.org/abs/2508.07976v2
- Date: Wed, 13 Aug 2025 11:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 14:06:00.561198
- Title: Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL
- Title(参考訳): 10ターンを超える:大規模非同期RLによる長距離エージェント検索のロック解除
- Authors: Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu,
- Abstract要約: ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで42.1、GAIAで52.8のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
- 参考スコア(独自算出の注目度): 18.90511238456644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in LLM-based agents have demonstrated remarkable capabilities in handling complex, knowledge-intensive tasks by integrating external tools. Among diverse choices of tools, search tools play a pivotal role in accessing vast external knowledge. However, open-source agents still fall short of achieving expert-level Search Intelligence, the ability to resolve ambiguous queries, generate precise searches, analyze results, and conduct thorough exploration. Existing approaches fall short in scalability, efficiency, and data quality. For example, small turn limits in existing online RL methods, e.g. <=10, restrict complex strategy learning. This paper introduces ASearcher, an open-source project for large-scale RL training of search agents. Our key contributions include: (1) Scalable fully asynchronous RL training that enables long-horizon search while maintaining high training efficiency. (2) A prompt-based LLM agent that autonomously synthesizes high-quality and challenging QAs, creating a large-scale QA dataset. Through RL training, our prompt-based QwQ-32B agent achieves substantial improvements, with 46.7% and 20.8% Avg@4 gains on xBench and GAIA, respectively. Notably, our agent exhibits extreme long-horizon search, with tool calls exceeding 40 turns and output tokens exceeding 150k during training time. With a simple agent design and no external LLMs, ASearcher-Web-QwQ achieves Avg@4 scores of 42.1 on xBench and 52.8 on GAIA, surpassing existing open-source 32B agents. We open-source our models, training data, and codes in https://github.com/inclusionAI/ASearcher.
- Abstract(参考訳): LLMをベースとしたエージェントの最近の進歩は、外部ツールを統合することで、複雑な知識集約的なタスクを扱う際、顕著な能力を示している。
さまざまなツールの選択の中で、検索ツールは膨大な外部知識にアクセスする上で重要な役割を担っている。
しかし、オープンソースエージェントは、専門家レベルの検索インテリジェンス、曖昧なクエリを解決し、正確な検索を生成し、結果を分析し、徹底的な探索を行う能力を達成するには依然として不足している。
既存のアプローチはスケーラビリティ、効率性、データ品質に欠けています。
例えば、既存のオンラインRLメソッドの小さなターン制限、例えば、g <=10は複雑な戦略学習を制限する。
本稿では,検索エージェントの大規模RL学習のためのオープンソースプロジェクトであるASearcherを紹介する。
1) 訓練効率を高く保ちながら長距離検索が可能なスケーラブルフル非同期RLトレーニング。
2)高品質で挑戦的なQAを自律的に合成し,大規模QAデータセットを作成するプロンプトベースのLLMエージェント。
RLトレーニングにより、我々のプロンプトベースのQwQ-32Bエージェントは、それぞれ46.7%と20.8%のAvg@4がxBenchおよびGAIAで向上した。
特に,ツールコールは40回以上,出力トークンは150k以上である。
ASearcher-Web-QwQ は単純なエージェント設計で外部の LLM を含まないため、Avg@4 スコアは xBench で 42.1 、GAIA で 52.8 となり、既存のオープンソース 32B エージェントを上回っている。
私たちは、私たちのモデル、トレーニングデータ、コードをhttps://github.com/inclusionAI/ASearcher.comでオープンソースにしています。
関連論文リスト
- WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization [14.931231544839687]
StepSearchは、ステップワイドなポリシー最適化手法でトレーニングされたLLMを検索するためのフレームワークである。
情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
論文 参考訳(メタデータ) (2025-05-21T05:01:31Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。