論文の概要: Experiential Reflective Learning for Self-Improving LLM Agents
- arxiv url: http://arxiv.org/abs/2603.24639v1
- Date: Wed, 25 Mar 2026 11:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.90695
- Title: Experiential Reflective Learning for Self-Improving LLM Agents
- Title(参考訳): 自己改善LDMエージェントのための実験反射学習
- Authors: Marc-Antoine Allard, Arnaud Teinturier, Victor Xing, Gautier Viaud,
- Abstract要約: 実験的反射学習(ERL:Experiential Reflective Learning)は,迅速な環境適応を実現するシンプルな自己改善フレームワークである。
ERLはタスクの軌跡と成果を反映して、タスク間で伝達される実行可能なレッスンを生成する。
ERLはReActベースラインよりも成功率を7.8%向上させ、タスク完了の信頼性を大きく向上させる。
- 参考スコア(独自算出の注目度): 1.1074589887824053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled the development of autonomous agents capable of complex reasoning and multi-step problem solving. However, these agents struggle to adapt to specialized environments and do not leverage past interactions, approaching each new task from scratch regardless of their accumulated experience. We introduce Experiential Reflective Learning (ERL), a simple self-improvement framework that enables rapid environment adaptation through experiential learning. ERL reflects on task trajectories and outcomes to generate heuristics, capturing actionable lessons that transfer across tasks. At test time, relevant heuristics are retrieved based on the current task and injected into the agent's context to guide execution. On the Gaia2 benchmark, ERL improves success rate by 7.8% over a ReAct baseline, with large gains in task completion reliability, and outperforms prior experiential learning methods. Through systematic ablations, we find that selective retrieval is essential and that heuristics provide more transferable abstractions than few-shot trajectory prompting. These results demonstrate that reflecting on single-attempt experiences to extract transferable heuristics enables effective agent self-improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な推論と多段階の問題解決が可能な自律エージェントの開発を可能にしている。
しかし、これらのエージェントは特別な環境に適応するのに苦労し、過去の相互作用を活用せず、蓄積した経験に関係なく、ゼロから新しいタスクにアプローチする。
本稿では,経験的学習による環境適応の迅速化を実現する,簡易な自己改善フレームワークであるERLを紹介する。
ERLは、タスクトラジェクトリと結果に基づいてヒューリスティックを生成し、タスク間で伝達される実行可能なレッスンをキャプチャする。
テスト時には、関連するヒューリスティックが現在のタスクに基づいて検索され、エージェントのコンテキストに注入されて実行をガイドする。
Gaia2ベンチマークでは、ERLはReActベースラインよりも成功率を7.8%向上させ、タスク完了の信頼性を大きく向上させ、以前の経験的学習方法より優れている。
体系的なアブレーションを通じて、選択的検索は不可欠であり、ヒューリスティックスは、数発の軌道のプロンプトよりも、より伝達可能な抽象化を提供する。
これらの結果から, 伝達可能なヒューリスティックを抽出するための単一試行経験を反映することにより, 効果的なエージェント自己改善が可能であることが示唆された。
関連論文リスト
- Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-18T20:45:04Z) - Complementary Reinforcement Learning [31.660877399506493]
強化学習(Reinforcement Learning, RL)は、LLMベースのエージェントを訓練するための強力なパラダイムとして登場した。
歴史から蒸留された経験は、静的に保存されるか、改善されたアクターと共進化することができない。
神経科学における補完学習システムに着想を得て,経験抽出器と政策アクターのシームレスな共進化を実現するための補完的RLを提案する。
論文 参考訳(メタデータ) (2026-03-18T11:38:01Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。
AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。
予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (2025-11-13T15:14:47Z) - SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection [14.40651157974557]
SAMULEは、多層反射合成に基づいて訓練された振り返り言語モデルを活用した、自己学習エージェントのための新しいフレームワークである。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラーを発生させるタスク内学習(メソレベル)、さまざまなタスク障害から同一の型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
論文 参考訳(メタデータ) (2025-09-24T21:02:15Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。