論文の概要: Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm
- arxiv url: http://arxiv.org/abs/2510.00415v1
- Date: Wed, 01 Oct 2025 01:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.327291
- Title: Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm
- Title(参考訳): 自己進化型ベンチマークに向けて: 検証と再現のパラダイムの下での試験時間探索によるエージェント軌道の合成
- Authors: Dadi Guo, Tianyi Zhou, Dongrui Liu, Chen Qian, Qihan Ren, Shuai Shao, Zhiyuan Fan, Yi R. Fung, Kun Wang, Linfeng Zhang, Jing Shao,
- Abstract要約: 本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
- 参考スコア(独自算出の注目度): 60.36837655498119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and agent system designs have empowered agents with unprecedented levels of capability. However, existing agent benchmarks are showing a trend of rapid ceiling-hitting by newly developed agents, making it difficult to meet the demands for evaluating agent abilities. To address this problem, we propose the Trajectory-based Validated-by-Reproducing Agent-benchmark Complexity Evolution (TRACE) framework. This framework takes an original task from an existing benchmark and encourages agents to freely explore and evolve it into a new task with higher difficulty while recording validatable agent trajectories. The framework proceeds in three stages: (1) evolutionary proposal mining, which provides task evolution proposals through preliminary exploration and divergent thinking; (2) problem formation and free exploration, where proposals are conceptualized into feasible problem candidates and the agents then explore them freely while recording their execution trajectories; and (3) multi-level validation, which ensures that the evolved tasks are accompanied by validatable and reproducible trajectories. Experiments on the GAIA benchmark demonstrate that the TRACE framework consistently enhances task complexity while improving the reliability of correctness through validatable execution trajectories. This work marks a paradigm shift from static, manually curated benchmarks to dynamic, self-evolving evaluation systems, providing a sustainable and challenging runway for agent development.
- Abstract(参考訳): 大規模言語モデル(LLM)やエージェントシステム設計の最近の進歩は、前例のない能力を持つエージェントに力を与えている。
しかし、既存のエージェントベンチマークは、新しく開発されたエージェントによる急速に天井を隠蔽する傾向を示しており、エージェント能力評価の要求を満たすことは困難である。
そこで本研究では, Trajectory-based Validated-by-Reducing Agent-benchmark Complexity Evolution (TRACE) フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、有効なエージェントトラジェクトリを記録しながら、より困難な新しいタスクにエージェントを自由に探索し、進化させます。
この枠組みは,(1)予備探索と分散思考を通じてタスク進化提案を提供する進化的提案マイニング,(2)問題形成と自由探索,(2)提案が実現可能な問題候補に概念化され,エージェントは実行軌跡を記録しながら自由に探索する,(3)進化したタスクに有効かつ再現可能な軌跡が伴うことを保証する多段階検証,の3段階で進行する。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上するとともに、有効な実行軌跡による正確性の信頼性を向上させる。
この作業は、静的で手動でキュレートされたベンチマークから、動的で自己進化的な評価システムへのパラダイムシフトであり、エージェント開発のための持続的で挑戦的な滑走路を提供する。
関連論文リスト
- SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [32.76299758137446]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。
これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。
モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。
エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:51:55Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。