論文の概要: PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents
- arxiv url: http://arxiv.org/abs/2605.07039v1
- Date: Thu, 07 May 2026 23:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.675377
- Title: PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents
- Title(参考訳): PACEvolve++: 進化的検索エージェントのテスト時間学習を改善する
- Authors: Minghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Shuo Chen, Zhankui He, Noveen Sachdeva, Weili Wang, Ed H. Chi, Shivaram Venkataraman, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang,
- Abstract要約: 進化的検索エージェントにおけるテスト時間ポリシー適応のためのアドバイザモデル強化学習フレームワークである PACEvolve++ を紹介する。
トレーニング可能なアドバイザは仮説を生成し、評価し、選択する一方、より強力なフロンティアモデルは選択した仮説を実行可能な候補に変換する。
- 参考スコア(独自算出の注目度): 33.73976693100584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-$k$ frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.
- Abstract(参考訳): 大規模言語モデルは進化的検索の原動力となっているが、ほとんどのシステムは、次の候補をサンプリングするために、固定的で迅速なポリシーに依存している。
これは、評価が高価であり、進歩はタスク固有の探索力学の学習に依存する、実践的な工学や研究のタスクへの適応を制限する。
進化的検索エージェントにおけるテスト時間ポリシー適応のためのアドバイザモデル強化学習フレームワークである PACEvolve++ を紹介する。
トレーニング可能なアドバイザは、仮説を生成し、評価し、選択する一方、より強力なフロンティアモデルは、選択した仮説を実行可能な候補に変換する。
非定常フィードバック下でアドバイザーを訓練するために、進化過程の異なる位相に最適化戦略を適用する位相適応アプローチを提案する。
進化の初期段階では、グループ相対的なフィードバックを使って幅広い検索嗜好を学習し、後に報酬ギャップが圧縮されるにつれて、安定した洗練をサポートするための最良$kのフロンティア貢献を強調した。
PACEvolve++は、専門家-並列ロードバランシング、シーケンシャルレコメンデーション、タンパク質適合性の外挿などを通じて、最先端の進化的検索フレームワークをフロンティアモデルで上回り、より高速な収束と、進化的検索中のテストタイムトレーニングの安定化を実現している。
関連論文リスト
- SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution [31.165726518569155]
LLM誘導進化探索は、自動アルゴリズム発見のための有望なパラダイムとして登場した。
モデルは、自然言語の戦略記述を第一級の集団レベルの進化状態に高めるモジュラー戦略空間層である。
モデルは、ほとんどの設定において、基盤となる進化のバックボーンを改善する。
論文 参考訳(メタデータ) (2026-04-27T12:06:15Z) - CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - EvoX: Meta-Evolution for Automated Discovery [115.89434419482797]
EvoXは、独自の進化過程を最適化する適応進化法である。
進捗に応じて、事前のソリューションが選択され、どのように変化するかを継続的に更新する。
AlphaEvolve, OpenEvolve, GEPA, ShinkaEvolveなどの既存のAI駆動の進化的手法を、タスクの大部分で上回っている。
論文 参考訳(メタデータ) (2026-02-26T18:54:41Z) - AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。
AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-23T18:45:31Z) - OR-Agent: Bridging Evolutionary Search and Structured Research for Automated Algorithm Discovery [10.217363774023033]
OR-Agentは、リッチな実験環境における自動探査のために設計されたマルチエージェントの研究フレームワークである。
本稿では,研究開始点の進化的選択,総合的な研究計画生成,研究ツリー内の協調探索を統一する進化的システム機構を提案する。
我々は古典的最適化ベンチマーク(走行セールスマン、静電容量化車両ルーティング、ビンパッキング、オリエンテーリング、および複数のクナップサック問題を含む)およびシミュレーションに基づく協調運転シナリオを含む実験を行う。
論文 参考訳(メタデータ) (2026-02-14T13:32:03Z) - Detect and Act: Automated Dynamic Optimizer through Meta-Black-Box Optimization [19.31451943915537]
本稿では,進化アルゴリズムにおける自動変分検出と自己適応を実現するための強化学習支援手法を提案する。
本手法は, 自動環境変動検出と自己適応により, 未知のDOPに対して一般化することができる。
論文 参考訳(メタデータ) (2026-01-30T04:28:27Z) - PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution [64.15555230987222]
PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
論文 参考訳(メタデータ) (2026-01-15T18:25:23Z) - Evolutionary Optimization of Deep Learning Agents for Sparrow Mahjong [0.0]
我々は、Sparrow MahjongでAI意思決定のためのディープラーニングベースのエージェントであるEvo-Sparrowを紹介する。
本モデルは,非決定論的かつ部分的に観察可能なゲーム環境において,ボード状態を評価し,意思決定ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-08-11T00:53:52Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。