論文の概要: EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems
- arxiv url: http://arxiv.org/abs/2510.13220v1
- Date: Wed, 15 Oct 2025 07:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.540289
- Title: EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems
- Title(参考訳): EvoTest: 自己改善エージェントシステムのための進化的テスト時間学習
- Authors: Yufei He, Juncheng Liu, Yue Liu, Yibo Li, Tri Cao, Zhiyuan Hu, Xinxing Xu, Bryan Hooi,
- Abstract要約: 現在のAIエージェントの基本的な制限は、テスト時に複雑なスキルをその場で学べないことだ。
EvoTestは,エージェントの微調整や勾配を伴わずにエージェントを改良する,進化的テストタイム学習フレームワークである。
- 参考スコア(独自算出の注目度): 59.66823584073748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental limitation of current AI agents is their inability to learn complex skills on the fly at test time, often behaving like "clever but clueless interns" in novel environments. This severely limits their practical utility. To systematically measure and drive progress on this challenge, we first introduce the Jericho Test-Time Learning (J-TTL) benchmark. J-TTL is a new evaluation setup where an agent must play the same game for several consecutive episodes, attempting to improve its performance from one episode to the next. On J-TTL, we find that existing adaptation methods like reflection, memory, or reinforcement learning struggle. To address the challenges posed by our benchmark, we present EvoTest, an evolutionary test-time learning framework that improves an agent without any fine-tuning or gradients-by evolving the entire agentic system after every episode. EvoTest has two roles: the Actor Agent, which plays the game, and the Evolver Agent, which analyzes the episode transcript to propose a revised configuration for the next run. This configuration rewrites the prompt, updates memory by logging effective state-action choices, tunes hyperparameters, and learns the tool-use routines. On our J-TTL benchmark, EvoTest consistently increases performance, outperforming not only reflection and memory-only baselines but also more complex online fine-tuning methods. Notably, our method is the only one capable of winning two games (Detective and Library), while all baselines fail to win any.
- Abstract(参考訳): 現在のAIエージェントの基本的な制限は、テスト時に複雑なスキルを学習できないことだ。
これにより実用性は著しく制限される。
この課題について,まずJerricho Test-Time Learning(J-TTL)ベンチマークを導入する。
J-TTLは、エージェントが同じゲームを数回連続してプレイし、そのパフォーマンスを1回から次回に改善しようとする、新たな評価設定である。
J-TTLでは、リフレクション、メモリ、強化学習といった既存の適応手法が用いられている。
EvoTestはエージェントを微調整や勾配なしに改善する進化的テストタイム学習フレームワークで、各エピソードの後にエージェントシステム全体を進化させます。
EvoTestには、ゲームをプレイするアクターエージェントと、エピソードの書き起こしを分析して次の実行用に改訂された設定を提案するEvolver Agentの2つの役割がある。
この構成はプロンプトを書き直し、効果的な状態アクションの選択をロギングすることでメモリを更新し、ハイパーパラメータをチューニングし、ツール使用ルーチンを学習する。
J-TTLベンチマークでは、EvoTestは一貫してパフォーマンスを向上し、リフレクションやメモリのみのベースラインだけでなく、より複雑なオンラインファインチューニングメソッドよりも優れています。
特に,本手法は2つのゲーム(Detective と Library)に勝てる唯一の方法であり,すべてのベースラインが勝てない。
関連論文リスト
- The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements [87.61432174951891]
科学的進歩への重要な能力は、既存の作品を再現する能力である。
アクティブな研究領域においてAIエージェントが結果を再現する能力を評価するために,自動LLM高速化ベンチマークを導入する。
最近のLSMとSoTAの足場を組み合わせると、ベンチマークですでに知られているイノベーションを再実装するのに苦労していることが分かりました。
論文 参考訳(メタデータ) (2025-06-27T17:44:32Z) - Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback [12.61197377492141]
大きな言語モデル(LLM)は印象的な意思決定能力を示している。
現在のメソッドでは、タスク実行中にエラーから自動的に自己改善するメカニズムが欠如している。
我々は,AIの専門家教師からのフィードバックを用いて,LLMエージェントを継続的に改善する反復的微調整フレームワークLEAPを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:55:53Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。