論文の概要: AEL: Agent Evolving Learning for Open-Ended Environments
- arxiv url: http://arxiv.org/abs/2604.21725v1
- Date: Thu, 23 Apr 2026 14:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.598234
- Title: AEL: Agent Evolving Learning for Open-Ended Environments
- Title(参考訳): AEL:オープンエンド環境における学習を促進するエージェント
- Authors: Wujiang Xu, Jiaojiao Han, Minghao Guo, Kai Mei, Xi Zhu, Han Zhang, Dimitris N. Metaxas,
- Abstract要約: 本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
- 参考スコア(独自算出の注目度): 43.56685432981852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents increasingly operate in open-ended environments spanning hundreds of sequential episodes, yet they remain largely stateless: each task is solved from scratch without converting past experience into better future behavior. The central obstacle is not \emph{what} to remember but \emph{how to use} what has been remembered, including which retrieval policy to apply, how to interpret prior outcomes, and when the current strategy itself must change. We introduce \emph{Agent Evolving Learning} (\ael{}), a two-timescale framework that addresses this obstacle. At the fast timescale, a Thompson Sampling bandit learns which memory retrieval policy to apply at each episode; at the slow timescale, LLM-driven reflection diagnoses failure patterns and injects causal insights into the agent's decision prompt, giving it an interpretive frame for the evidence it retrieves. On a sequential portfolio benchmark (10 sector-diverse tickers, 208 episodes, 5 random seeds), \ael{} achieves a Sharpe ratio of 2.13$\pm$0.47, outperforming five published self-improving methods and all non-LLM baselines while maintaining the lowest variance among all LLM-based approaches. A nine-variant ablation reveals a ``less is more'' pattern: memory and reflection together produce a 58\% cumulative improvement over the stateless baseline, yet every additional mechanism we test (planner evolution, per-tool selection, cold-start initialization, skill extraction, and three credit assignment methods) \emph{degrades} performance. This demonstrates that the bottleneck in agent self-improvement is \emph{self-diagnosing how to use} experience rather than adding architectural complexity. Code and data: https://github.com/WujiangXu/AEL.
- Abstract(参考訳): LLMエージェントは、数百の連続するエピソードにまたがるオープンエンド環境でますます運用されるが、それらはほとんどステートレスであり、過去の経験をよりよい将来の行動に変換することなく、各タスクはゼロから解決される。
中心となる障害は、記憶すべき \emph{what} ではなく、どの検索ポリシーを適用するか、事前結果の解釈方法、現在の戦略自体が変更される必要があるときなど、記憶されているもののみである。
この障害に対処する2段階のフレームワークである \emph{Agent Evolving Learning} (\ael{})を紹介する。
速い時間スケールでは、トンプソンサンプリングのバンドイットが各エピソードに適用すべきメモリ検索ポリシーを学習し、遅い時間スケールでは、LSMが駆動するリフレクションが障害パターンを診断し、エージェントの決定プロンプトに因果的な洞察を注入し、それが取得する証拠の解釈枠を与える。
シーケンシャルポートフォリオベンチマーク(10セクターディバースティッカー、208エピソード、5つのランダムシード)では、 \ael{} はシャープ比 2.13$\pm$0.47 を達成し、5つの自己改善法と全ての非LLMベースラインを上回り、全てのLCMベースのアプローチで最低分散を維持している。
メモリとリフレクションは、ステートレスベースラインに対して58\%の累積的な改善をもたらすが、テストするすべての追加メカニズム(プランナー進化、ツールごとの選択、コールドスタート初期化、スキル抽出、および3つのクレジット割り当てメソッド)は、パフォーマンスである。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを増すのではなく、経験の使い方を‘emph{self-diagnosing \emph{self-diagnosing}’であることを示している。
コードとデータ:https://github.com/WujiangXu/AEL
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning [32.16683059021539]
大規模推論モデル(LRM)は、構造化推論によって多様で複雑な問題を解くことを目的としている。
グループベースの政策最適化手法の最近の進歩は、プロセスレベルのアノテーションに頼らず、安定した優位性推定を可能にすることを約束している。
本報告では,(1)群内優位性を維持するEmphcross-context underlinetextbfReplay戦略,(2)emphin-context self-underlinetextbfReflectionメカニズムの3つの方向に沿った強化学習機構を提案する。
論文 参考訳(メタデータ) (2026-01-27T13:55:34Z) - Process-Tensor Tomography of SGD: Measuring Non-Markovian Memory via Back-Flow of Distinguishability [1.078600700827543]
我々は,識別可能性のオンフバックフローに基づく学習記憶のモデルに依存しない簡易な目撃者を構築した。
高い運動量下での増幅, よりマイクロステップで, 厳密なブートストラップ信頼区間による一貫した正の逆流を観察した。
我々はこれを、実用的なSGDがマルコフの理想化から逸脱する、原則化された診断および実証的な証拠として位置付ける。
論文 参考訳(メタデータ) (2026-01-23T09:03:25Z) - Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression [15.099304324307434]
マイクロ・エクスプレッション(ME)は、不随意、低強度、短時間の表情である。
既存のME分析手法の多くは、固定されたウィンドウサイズと難しい決定を伴うウィンドウレベルの分類に依存している。
本稿では,ME解析のための事前誘導型ビデオレベル回帰手法を提案する。
論文 参考訳(メタデータ) (2025-08-26T09:13:36Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。