論文の概要: SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents
- arxiv url: http://arxiv.org/abs/2604.07791v1
- Date: Thu, 09 Apr 2026 04:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.695533
- Title: SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents
- Title(参考訳): SEARL:自己進化型エージェントのためのポリシーとツールグラフメモリの併用最適化
- Authors: Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao,
- Abstract要約: 本稿では,ツールメモリをベースとした自己進化型エージェントフレームワークSEARLを紹介する。
インタラクションエクスペリエンスを直接利用するアプローチとは異なり,本手法では,計画と実行を統合する構造化されたエクスペリエンスメモリを構築している。
我々は,知識推論と数学タスクの枠組みを評価し,より実践的で効率的な学習を実現する上での有効性を実証した。
- 参考スコア(独自算出の注目度): 35.45207852488779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have demonstrated significant potential in single-turn reasoning tasks. With the paradigm shift toward self-evolving agentic learning, models are increasingly expected to learn from trajectories by synthesizing tools or accumulating explicit experiences. However, prevailing methods typically rely on large-scale LLMs or multi-agent frameworks, which hinder their deployment in resource-constrained environments. The inherent sparsity of outcome-based rewards also poses a substantial challenge, as agents typically receive feedback only upon completion of tasks. To address these limitations, we introduce a Tool-Memory based self-evolving agentic framework SEARL. Unlike approaches that directly utilize interaction experiences, our method constructs a structured experience memory that integrates planning with execution. This provides a novel state abstraction that facilitates generalization across analogous contexts, such as tool reuse. Consequently, agents extract explicit knowledge from historical data while leveraging inter-trajectory correlations to densify reward signals. We evaluate our framework on knowledge reasoning and mathematics tasks, demonstrating its effectiveness in achieving more practical and efficient learning.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)の最近の進歩は、単ターン推論タスクにおいて大きな可能性を示している。
自己進化型エージェント学習へのパラダイムシフトにより、モデルはツールの合成や明示的な経験の蓄積によって軌道から学習されることがますます期待される。
しかし、一般的な手法は大規模LLMやマルチエージェントフレームワークに依存しており、リソース制約のある環境でのデプロイメントを妨げている。
結果に基づく報酬の空間性は、エージェントが通常タスクの完了時にのみフィードバックを受け取るため、大きな課題となる。
これらの制約に対処するため、ツールメモリベースの自己進化型エージェントフレームワークSEARLを導入する。
インタラクションエクスペリエンスを直接利用するアプローチとは異なり,本手法では,計画と実行を統合する構造化されたエクスペリエンスメモリを構築している。
これは、ツールの再利用など、類似したコンテキストをまたいだ一般化を容易にする、新しい状態抽象化を提供する。
その結果、エージェントは、軌道間相関を利用して履歴データから明示的な知識を抽出し、報酬信号を密度化する。
我々は,知識推論と数学タスクの枠組みを評価し,より実践的で効率的な学習を実現する上での有効性を実証した。
関連論文リスト
- Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文 参考訳(メタデータ) (2026-03-30T17:59:02Z) - Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-18T20:45:04Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory [57.517214479414726]
ReasoningBankは、エージェントの自己判断の成功と失敗の経験から一般化可能な推論戦略を抽出するメモリフレームワークである。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
本稿では,エージェントのインタラクションエクスペリエンスをスケールアップすることにより,学習プロセスの高速化と多様化を図るメモリ対応テストタイムスケーリング(MaTTS)を提案する。
論文 参考訳(メタデータ) (2025-09-29T17:51:03Z) - Experience Scaling: Post-Deployment Evolution For Large Language Models [44.48142891798125]
大規模言語モデル(LLM)の継続的デプロイ後進化のためのフレームワークであるエクスペリエンススケーリングを提案する。
このフレームワークは,以前には見つからなかったが関連するタスク,繰り返しクエリ,過飽和知識ストアへの一般化を含む実世界のシナリオで検証される。
その結果、構造化されたデプロイ後学習は、静的な人間生成データの限界を超えてLLM能力を拡張できることを示した。
論文 参考訳(メタデータ) (2025-09-23T08:04:58Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。