論文の概要: PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution
- arxiv url: http://arxiv.org/abs/2601.10657v1
- Date: Thu, 15 Jan 2026 18:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.261585
- Title: PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution
- Title(参考訳): PACEvolve: 長距離進行を意識した一貫性進化を実現する
- Authors: Minghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Zhankui He, Noveen Sachdeva, Isabella Ye, Weili Wang, Chi Wang, Ed H. Chi, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang,
- Abstract要約: PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
- 参考スコア(独自算出の注目度): 36.54888508141188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as powerful operators for evolutionary search, yet the design of efficient search scaffolds remains ad hoc. While promising, current LLM-in-the-loop systems lack a systematic approach to managing the evolutionary process. We identify three distinct failure modes: Context Pollution, where experiment history biases future candidate generation; Mode Collapse, where agents stagnate in local minima due to poor exploration-exploitation balance; and Weak Collaboration, where rigid crossover strategies fail to leverage parallel search trajectories effectively. We introduce Progress-Aware Consistent Evolution (PACEvolve), a framework designed to robustly govern the agent's context and search dynamics, to address these challenges. PACEvolve combines hierarchical context management (HCM) with pruning to address context pollution; momentum-based backtracking (MBB) to escape local minima; and a self-adaptive sampling policy that unifies backtracking and crossover for dynamic search coordination (CE), allowing agents to balance internal refinement with cross-trajectory collaboration. We demonstrate that PACEvolve provides a systematic path to consistent, long-horizon self-improvement, achieving state-of-the-art results on LLM-SR and KernelBench, while discovering solutions surpassing the record on Modded NanoGPT.
- Abstract(参考訳): 大規模言語モデル (LLM) は進化的探索の強力な演算子として登場したが、効率的な探索の足場の設計はいまだに苦手である。
将来性はあるものの、現在のLLM-in-the-loopシステムは進化過程を管理するための体系的なアプローチを欠いている。
実験履歴が将来の候補生成をバイアスするコンテキスト汚染,探索と探索のバランスが悪いためにエージェントが局所的なミニマで停滞するモード崩壊,厳密なクロスオーバー戦略が並列探索軌道を効果的に活用できない弱協調,という3つの異なる障害モードを識別する。
PACEvolveはエージェントのコンテキストと探索ダイナミクスをしっかりと管理するフレームワークで,これらの課題に対処する。
PACEvolveは、階層的コンテキスト管理(HCM)と、文脈汚染に対処するためのプルーニング(pruning)、局所的なミニマから逃れるための運動量ベースのバックトラック(MBB)、動的サーチコーディネート(CE)のためのバックトラックとクロスオーバーを統一する自己適応サンプリングポリシーを組み合わせることで、エージェントは内部の洗練とクロストラック協調のバランスをとることができる。
我々は、PACEvolveが、LLM-SRとKernelBenchの最先端結果を達成するとともに、Modded NanoGPTの記録を超えるソリューションを発見しながら、一貫性のある長期自己改善のための体系的な経路を提供することを示した。
関連論文リスト
- Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - LoongFlow: Directed Evolutionary Search via a Cognitive Plan-Execute-Summarize Paradigm [8.050281821865978]
LoongFlowは、最先端のソリューション品質を実現し、計算コストを大幅に削減するセルフ進化エージェントフレームワークである。
ブレンド」突然変異演算子とは異なり、LoongFlowはLarge Language Modelsを認知的なPlan-Execute-Summarize(PES)パラダイムに統合している。
長期的アーキテクチャコヒーレンスを維持するため、我々はハイブリッド進化記憶システムを組み込んだ。
論文 参考訳(メタデータ) (2025-12-30T08:39:28Z) - IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.49922328855025]
IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
論文 参考訳(メタデータ) (2025-11-10T17:30:08Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Structuring Collective Action with LLM-Guided Evolution: From Ill-Structured Problems to Executable Heuristics [0.0]
個別インセンティブと集合目標の整合性を必要とする集団行動問題は、Ill-Structured Problems(ISP)の古典的な例である。
本稿では,この大域的複雑性を,各エージェントに対して抽出可能なWSP(Well-Structured Problem)に変換する計算フレームワークECHO-MIMICを提案する。
ECHO-MIMICは、アルゴリズム発見と調整されたコミュニケーションを結合することにより、集団行動の認知的負担を単純なエージェントレベルの命令セットに変換する。
論文 参考訳(メタデータ) (2025-09-24T08:26:56Z) - PILOC: A Pheromone Inverse Guidance Mechanism and Local-Communication Framework for Dynamic Target Search of Multi-Agent in Unknown Environments [11.626888857723067]
我々は,グローバルな事前知識を使わずに動作し,局所的な知覚とコミュニケーションを活用するフレームワークであるPILOCを提案する。
PILOCは、地域コミュニケーションを通じて分散的な協力を促進し、グローバルチャネルへの依存を著しく低減する。
その結果, 局所通信とフェロモン誘導を組み合わせることで, 探索効率, 適応性, システムロバスト性が大きく向上することがわかった。
論文 参考訳(メタデータ) (2025-07-10T02:10:18Z) - Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。
GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。
実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。