論文の概要: FlashEvolve: Accelerating Agent Self-Evolution with Asynchronous Stage Orchestration
- arxiv url: http://arxiv.org/abs/2605.08520v1
- Date: Fri, 08 May 2026 22:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.706207
- Title: FlashEvolve: Accelerating Agent Self-Evolution with Asynchronous Stage Orchestration
- Title(参考訳): FlashEvolve: 非同期ステージオーケストレーションによるエージェントの自己進化促進
- Authors: Zhengding Hu, Mingge Lu, Zhen Wang, Jixuan Ruan, Chang Chen, Zaifeng Pan, Yue Guan, Ruiyi Wang, Zhongkai Yu, Chao Zhang, Yufei Ding,
- Abstract要約: FlashEvolveは非同期ワーカーとキューとの同期実行を置き換える効率的なフレームワークである。
古いアーティファクトは、単に遅れた作業であるだけでなく、LLMが反射し、修正し、有用な進化信号になることを示す読みやすい証拠でもある。
GEPAワークロードでは、FlashEvolveがプロポーザルスループットを、ローカルvLLMで3.5ドル、同期GEPA上でAPIを提供する場合4.9ドル改善している。
- 参考スコア(独自算出の注目度): 21.861377194628094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based evolution has emerged as a promising way to improve agents by refining non-parametric artifacts, but its wall-clock cost remains a major bottleneck. We identify that this cost comes from synchronized stage execution and imbalance inside each LLM-heavy stage. We present FlashEvolve, an efficient framework that replaces synchronized execution with asynchronous workers and queues, allowing different stages and steps to overlap. To handle data staleness introduced by asynchrony, FlashEvolve tracks artifact versions and applies different policies to update, discard, or patch stale artifacts. Unlike weight-space staleness in asynchronous RL, language-space staleness is inspectable and repairable: a stale artifact is not just delayed work, but readable evidence that the LLM can reflect on, revise, and turn into useful evolution signal. FlashEvolve further improves throughput and token efficiency with speculative stage completion and adaptive workflow control. On GEPA workloads, FlashEvolve improves proposal throughput by $3.5\times$ on local vLLM and $4.9\times$ on API serving over synchronous GEPA. The same design also applies to ACE and Meta-Harness.
- Abstract(参考訳): LLMベースの進化は、非パラメトリックなアーティファクトを精製することでエージェントを改善するための有望な方法として登場したが、ウォールクロックコストは依然として大きなボトルネックとなっている。
このコストは, 各LDM重段内における同期ステージ実行と不均衡から生じる。
我々は、非同期ワーカーとキューとの同期実行を置き換え、異なるステージとステップの重複を可能にする効率的なフレームワークであるFlashEvolveを紹介します。
非同期によって導入されたデータの不安定性を扱うために、FlashEvolveはアーティファクトのバージョンを追跡し、さまざまなポリシーを適用して、古いアーティファクトを更新、破棄、パッチする。
非同期RLにおける重み空間の安定化とは異なり、言語空間の安定化は検査可能で修復可能であり、静的なアーティファクトは単に遅延処理であるだけでなく、LLMが反射し、修正し、有用な進化信号に変換できるという読みやすい証拠である。
FlashEvolveはさらにスループットとトークン効率を改善し、投機的なステージ完了と適応ワークフロー制御を実現している。
GEPAワークロードでは、FlashEvolveがプロポーザルスループットを、ローカルのvLLMでは$3.5\times$、同期のGEPAでは$4.9\times$で改善している。
同じ設計はACEやMeta-Harnessにも適用される。
関連論文リスト
- TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems [55.81570336226014]
動的マルチエージェントシステムのためのテスト時間共進化フレームワークであるTacoMASを紹介する。
TacoMASはMAS推論をオンライングラフ適応のタスクとして定式化し、ノードは役割固有の能力を持つエージェントを表し、エッジはその通信トポロジを定義する。
4つのベンチマークの実験では、TacoMASは20近いマルチエージェントベースラインを上回り、最強ベースラインよりも平均13.3%向上した。
論文 参考訳(メタデータ) (2026-05-10T13:52:00Z) - From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work [0.10312968200748114]
本稿では,AIネイティブな作業が人工物生成計算の有向非巡回グラフ(DAG)として表現される実行モデルを提案する。
制御された2つのポリシーメモ更新タスクにおいて、ループ中心の更新ベースラインに対する実行行リプレイを比較した。
論文 参考訳(メタデータ) (2026-05-07T14:39:37Z) - Autogenesis: A Self-Evolving Agent Protocol [60.15939127351914]
本稿では,自己進化プロトコルであるAutogenesis Protocol(AGP)を紹介する。
本稿では,実行中のプロトコル登録リソースを動的にインスタンス化し,検索し,精錬する自己進化型マルチエージェントシステムAGSを提案する。
論文 参考訳(メタデータ) (2026-04-16T14:04:06Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild [74.7263562191605]
大規模言語モデル(LLM)エージェントは、複雑なタスクにますます使われている。
既存の方法は、知識を蒸留せずに生の軌跡を保存するか、静的なスキルライブラリを維持するか、または再訓練のために破壊的なダウンタイムを必要とする。
本稿では,基本的なLCMポリシと再利用可能な行動スキルのライブラリを共同で進化させるメタ学習フレームワークであるMetaClawを紹介する。
論文 参考訳(メタデータ) (2026-03-17T22:30:30Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - On the synchronization between Hugging Face pre-trained language models and their upstream GitHub repository [11.828311976126303]
事前訓練された言語モデル(PTLM)は、高度な自然言語処理(NLP)を持つ。
PTLMはアップストリームリポジトリ(GitHub、GHなど)のコードと環境スクリプトを使用してトレーニングされ、Hugging Face (HF)のような下流プラットフォーム経由で変種として配布される。
GHとHFのコーディネート開発は、不整合リリーススケジュール、一貫性のないバージョニング、PTLMバリアントの限定的な再利用といった課題を生んでいる。
論文 参考訳(メタデータ) (2025-08-13T19:45:09Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。