論文の概要: Towards Agentic Self-Learning LLMs in Search Environment
- arxiv url: http://arxiv.org/abs/2510.14253v2
- Date: Tue, 21 Oct 2025 02:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.42319
- Title: Towards Agentic Self-Learning LLMs in Search Environment
- Title(参考訳): 検索環境におけるエージェント型自己学習 LLM の実現に向けて
- Authors: Wangtao Sun, Xiang Cheng, Jialin Fan, Yao Xu, Xing Yu, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: 自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳密なルールベースの信号より優れている。
完全閉ループ・マルチロール強化学習フレームワークである textbfAgentic Self-Learning (ASL) を提案する。
- 参考スコア(独自算出の注目度): 36.158823302039195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study whether self-learning can scale LLM-based agents without relying on human-curated datasets or predefined rule-based rewards. Through controlled experiments in a search-agent setting, we identify two key determinants of scalable agent training: the source of reward signals and the scale of agent task data. We find that rewards from a Generative Reward Model (GRM) outperform rigid rule-based signals for open-domain learning, and that co-evolving the GRM with the policy further boosts performance. Increasing the volume of agent task data-even when synthetically generated-substantially enhances agentic capabilities. Building on these insights, we propose \textbf{Agentic Self-Learning} (ASL), a fully closed-loop, multi-role reinforcement learning framework that unifies task generation, policy execution, and evaluation within a shared tool environment and LLM backbone. ASL coordinates a Prompt Generator, a Policy Model, and a Generative Reward Model to form a virtuous cycle of harder task setting, sharper verification, and stronger solving. Empirically, ASL delivers steady, round-over-round gains, surpasses strong RLVR baselines (e.g., Search-R1) that plateau or degrade, and continues improving under zero-labeled-data conditions, indicating superior sample efficiency and robustness. We further show that GRM verification capacity is the main bottleneck: if frozen, it induces reward hacking and stalls progress; continual GRM training on the evolving data distribution mitigates this, and a small late-stage injection of real verification data raises the performance ceiling. This work establishes reward source and data scale as critical levers for open-domain agent learning and demonstrates the efficacy of multi-role co-evolution for scalable, self-improving agents. The data and code of this paper are released at https://github.com/forangel2014/Towards-Agentic-Self-Learning
- Abstract(参考訳): 自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
探索エージェント設定における制御実験により、報奨信号のソースとエージェントタスクデータのスケールという、スケーラブルなエージェントトレーニングの2つの重要な決定要因を同定する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳格なルールベースの信号よりも優れており、このポリシーとGRMを併用することで、さらなるパフォーマンス向上が期待できる。
合成生成したエージェントタスクデータの量を増加させることにより、エージェント能力が増強される。
これらの知見に基づいて、タスク生成、ポリシー実行、評価を共有ツール環境とLLMバックボーン内で統一する、完全にクローズドループでマルチロール強化学習フレームワークである「textbf{Agentic Self-Learning} (ASL)」を提案する。
ASL は Prompt Generator 、 Policy Model 、Generative Reward Model をコーディネートし、より難しいタスク設定、よりシャープな検証、より強力な解決の希薄なサイクルを形成する。
経験的に、ASLは安定したラウンドオーバーラウンドのゲインを提供し、高いRLVRベースライン(例えば、検索-R1)を越え、プラトーまたはデグレードし、ゼロラベルデータ条件下で改善を続け、より優れたサンプル効率とロバスト性を示している。
さらに、GRM検証能力が主なボトルネックであることを示す: 凍結した場合、報酬のハッキングを誘発し、進行を停止する; 進化するデータ分散に関する連続的なGRMトレーニングは、これを緩和し、実際の検証データの小さな後期的な注入は、パフォーマンスの天井を上昇させる。
この研究は、オープンドメインエージェント学習における重要なレバーとして、報酬源とデータスケールを確立し、スケーラブルで自己改善的なエージェントに対するマルチロール共進化の有効性を実証する。
本論文のデータとコードはhttps://github.com/forangel2014/Towards-Agentic-Self-Learningで公開されている。
関連論文リスト
- MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance [18.215893951726166]
大規模言語モデル(LLM)は、早期学習を容易にするサブゴール分解、可塑性軌跡、抽象的な事前情報を提供することができる。
本稿では,MIRA (Memory-Integrated Reinforcement Learning Agent) を提案する。
論文 参考訳(メタデータ) (2026-02-20T01:43:30Z) - OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T17:02:46Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - ProgRM: Build Better GUI Agents with Progress Rewards [18.654776061354895]
本稿では,オンライントレーニングの各段階におけるタスク完了の進捗を予測し,情報量の多い中間報酬を提供するプログレッシブ・リワード・モデル(ProgRM)を提案する。
ProgRMは広範な実験と分析によって評価されている。
論文 参考訳(メタデータ) (2025-05-23T17:23:11Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。