Fugu-MT 論文翻訳(概要): Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm

論文の概要: Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm

arxiv url: http://arxiv.org/abs/2510.00415v1
Date: Wed, 01 Oct 2025 01:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.327291
Title: Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm
Title（参考訳）: 自己進化型ベンチマークに向けて: 検証と再現のパラダイムの下での試験時間探索によるエージェント軌道の合成
Authors: Dadi Guo, Tianyi Zhou, Dongrui Liu, Chen Qian, Qihan Ren, Shuai Shao, Zhiyuan Fan, Yi R. Fung, Kun Wang, Linfeng Zhang, Jing Shao,
Abstract要約: 本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。 GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
参考スコア（独自算出の注目度）: 60.36837655498119
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) and agent system designs have empowered agents with unprecedented levels of capability. However, existing agent benchmarks are showing a trend of rapid ceiling-hitting by newly developed agents, making it difficult to meet the demands for evaluating agent abilities. To address this problem, we propose the Trajectory-based Validated-by-Reproducing Agent-benchmark Complexity Evolution (TRACE) framework. This framework takes an original task from an existing benchmark and encourages agents to freely explore and evolve it into a new task with higher difficulty while recording validatable agent trajectories. The framework proceeds in three stages: (1) evolutionary proposal mining, which provides task evolution proposals through preliminary exploration and divergent thinking; (2) problem formation and free exploration, where proposals are conceptualized into feasible problem candidates and the agents then explore them freely while recording their execution trajectories; and (3) multi-level validation, which ensures that the evolved tasks are accompanied by validatable and reproducible trajectories. Experiments on the GAIA benchmark demonstrate that the TRACE framework consistently enhances task complexity while improving the reliability of correctness through validatable execution trajectories. This work marks a paradigm shift from static, manually curated benchmarks to dynamic, self-evolving evaluation systems, providing a sustainable and challenging runway for agent development.
Abstract（参考訳）: 大規模言語モデル(LLM)やエージェントシステム設計の最近の進歩は、前例のない能力を持つエージェントに力を与えている。しかし、既存のエージェントベンチマークは、新しく開発されたエージェントによる急速に天井を隠蔽する傾向を示しており、エージェント能力評価の要求を満たすことは困難である。そこで本研究では, Trajectory-based Validated-by-Reducing Agent-benchmark Complexity Evolution (TRACE) フレームワークを提案する。このフレームワークは、既存のベンチマークから元のタスクを受け取り、有効なエージェントトラジェクトリを記録しながら、より困難な新しいタスクにエージェントを自由に探索し、進化させます。この枠組みは,(1)予備探索と分散思考を通じてタスク進化提案を提供する進化的提案マイニング,(2)問題形成と自由探索,(2)提案が実現可能な問題候補に概念化され,エージェントは実行軌跡を記録しながら自由に探索する,(3)進化したタスクに有効かつ再現可能な軌跡が伴うことを保証する多段階検証,の3段階で進行する。 GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上するとともに、有効な実行軌跡による正確性の信頼性を向上させる。この作業は、静的で手動でキュレートされたベンチマークから、動的で自己進化的な評価システムへのパラダイムシフトであり、エージェント開発のための持続的で挑戦的な滑走路を提供する。

関連論文リスト

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-03T15:32:09Z)
Exploring Reasoning Reward Model for Agents [30.458783880389216]
エージェント強化学習(Agentic RL)は、エージェントが複雑な推論やツールの使用を行えるようにして、顕著な成功を収めた。ほとんどの手法は依然として、トレーニングに対するスパースな結果ベースの報酬に依存しています。本稿ではエージェント・リソン・リワードモデル(Agent-RRM)を紹介する。
論文参考訳（メタデータ） (2026-01-29T18:59:52Z)
AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。実行トレースから実装盲の症状レベルの品質信号を生成する。主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文参考訳（メタデータ） (2026-01-08T05:49:01Z)
E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。 E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文参考訳（メタデータ） (2025-12-02T05:59:18Z)
AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。 AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文参考訳（メタデータ） (2025-11-13T15:14:47Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [32.76299758137446]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文参考訳（メタデータ） (2025-08-04T05:51:55Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。