論文の概要: SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
- arxiv url: http://arxiv.org/abs/2604.08988v2
- Date: Tue, 14 Apr 2026 01:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.22763
- Title: SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
- Title(参考訳): SEA-Eval: エピソード評価を超えた自己進化型エージェントの評価ベンチマーク
- Authors: Sihang Jiang, Lipeng Ma, Zhonghua Hong, Keyi Wang, Zhiyu Lu, Shisong Chen, Jinghao Zhang, Tianjun Pan, Weijia Zhou, Jiaqing Liang, Yanghua Xiao,
- Abstract要約: 本稿では、Self-Evolving Evolutionary Agentを定義し、SEAの評価に特化して設計された最初のベンチマークであるSEA-Evalを紹介する。
SEA-Evalは、主要な指標として$SR$と$T$を確立し、シーケンシャルなタスクストリーム設計を通じて進化的ゲイン、進化的安定性、暗黙的なアライメント収束を実現できる。
- 参考スコア(独自算出の注目度): 52.87618765740484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM-based agents demonstrate strong performance in episodic task execution but remain constrained by static toolsets and episodic amnesia, failing to accumulate experience across task boundaries. This paper presents the first formal definition of the Self-Evolving Agent (SEA), formalizes the Evolutionary Flywheel as its minimal sufficient architecture, and introduces SEA-Eval -- the first benchmark designed specifically for evaluating SEAs. Grounded in Flywheel theory, SEA-Eval establishes $SR$ and $T$ as primary metrics and enables through sequential task stream design the independent quantification of evolutionary gain, evolutionary stability, and implicit alignment convergence. Empirical evaluation reveals that under identical success rates, token consumption differs by up to 31.2$\times$ across frameworks, with divergent evolutionary trajectories under sequential analysis -- demonstrating that success rate alone creates a capability illusion and that the sequential convergence of $T$ is the key criterion for distinguishing genuine evolution from pseudo-evolution.
- Abstract(参考訳): 現在のLLMベースのエージェントは、表在的なタスク実行において強いパフォーマンスを示すが、静的なツールセットと表在的なアムネシアによって制約され、タスク境界を越えて経験を蓄積することができない。
本稿では,SEA (Self-Evolving Agent) の最初の形式的定義を提示し,その最小限のアーキテクチャとして進化型フライホイールを定式化し,SEA-Eval(SEA-Eval) を導入した。
フライホイール理論に基づいて、SEA-Evalは、SR$とT$を主要な指標として定め、進化的ゲイン、進化的安定性、暗黙的なアライメント収束の独立な定量化をシーケンシャルなタスクストリーム設計によって実現している。
実証的な評価によると、同じ成功率の下では、トークンの消費はフレームワーク間で最大31.2$\times$で異なる。
関連論文リスト
- Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - State Stream Transformer (SST) : Emergent Metacognitive Behaviours Through Latent State Persistence [0.0]
State Stream Transformer (SST) は、事前訓練された重みで遅延した突発的な推論動作を示す新しいLCMアーキテクチャである。
SSTは、自己回帰世代を通して永続的な潜伏過程を維持し、進化させる重み付き崩壊を伴うスライディングウィンドウ潜伏状態(FFN)キャッシュを導入している。
SSTは、GSM-8K(0ショット)で89.01%、ARC Challenge(0ショットCoT)で91.04%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-30T14:03:36Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Episodic Memory for Learning Subjective-Timescale Models [1.933681537640272]
モデルに基づく学習では、エージェントのモデルは、環境の連続状態間の遷移に対して一般的に定義される。
対照的に、生物学的生物の知的行動は、文脈によって異なる時間スケールを計画する能力によって特徴づけられる。
エージェントの主観的時間尺度を定義するエピソード記憶のシーケンスに基づいて、遷移力学モデルを学ぶための新しいアプローチを考案する。
論文 参考訳(メタデータ) (2020-10-03T21:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。