論文の概要: SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration
- arxiv url: http://arxiv.org/abs/2605.14089v1
- Date: Wed, 13 May 2026 20:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.493584
- Title: SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration
- Title(参考訳): SkillFlow: エージェントオーケストレーションのためのフロー駆動の再帰的スキル進化
- Authors: Mingda Zhang, Tiesunlong Shen, Haoran Luo, Wenjin Liu, Zikai Xiao, Erik Cambria, Xiaoying Tang,
- Abstract要約: SkillFlowは、トレーニング可能なスーパーバイザをエージェントとして、動的スキルオーケストレーションを備えた構造化環境として、フローベースのフレームワークである。
これらのフロー診断に基づいて、スキル進化メカニズムは、いつ進化するか、どのスキルを創り出すか、どこで意思決定のギャップがあるかを決定する。
- 参考スコア(独自算出の注目度): 40.79922760459963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, a variety of powerful LLM-based agentic systems have been applied to automate complex tasks through task orchestration. However, existing orchestration methods still face key challenges, including strategy collapse under reward maximization, high gradient variance with opaque credit assignment, and unguided skill evolution whose decisions are typically made by directly prompting an LLM to judge rather than derived from principled training signals. To address these challenges, we propose SkillFlow, a flow-based framework that takes a trainable Supervisor as the agent and a structured environment with dynamic skill library and frozen executor, automating task orchestration through multi-turn interaction. SkillFlow employs Tempered Trajectory Balance (TTB), a regression-based flow-matching loss that samples trajectories proportional to reward, preserving diverse orchestration strategies rather than collapsing to a single mode. The same flow objective yields a jointly learned backward policy that provides transparent per-step credit assignment at zero additional inference cost. Building on these flow diagnostics, a recursive skill evolution mechanism determines when to evolve, what skills to create or prune, and where decision gaps lie -- closing the loop from training signal to autonomous capability growth. Experimental results on 14 datasets show that SkillFlow significantly outperforms baselines across question answering, mathematical reasoning, code generation, and real-world interactive decision making tasks. Our code is available at https://anonymous.4open.science/r/SkillFlow-E850.
- Abstract(参考訳): 近年,タスクオーケストレーションによる複雑なタスクの自動化に,強力なLLMベースのエージェントシステムが応用されている。
しかしながら、既存のオーケストレーション手法では、報酬の最大化による戦略崩壊、不透明なクレジット割り当てによる高勾配のばらつき、原則的なトレーニング信号からではなく、LCMに直接判断するよう促すことによって決定される非ガイドスキルの進化など、大きな課題に直面している。
これらの課題に対処するために、トレーニング可能なスーパーバイザをエージェントとして、動的スキルライブラリとフリーズエグゼキュータを備えた構造化環境として、マルチターンインタラクションによるタスクオーケストレーションを自動化するフローベースのフレームワークであるSkillFlowを提案する。
SkillFlowは、TTB(Tempered Trajectory Balance)という回帰ベースのフローマッチング損失を採用しており、単一のモードに崩壊するのではなく、さまざまなオーケストレーション戦略を保存する。
同じフローの目的は、ゼロ追加の推論コストで透明なステップ単位のクレジット割り当てを提供する、共同で学習した後方ポリシーをもたらす。
これらのフロー診断に基づいて、再帰的なスキル進化メカニズムは、いつ進化するか、どのスキルを創り出すか、どこで意思決定のギャップがあるかを決定します。
14のデータセットでの実験結果から、SkillFlowは質問応答、数学的推論、コード生成、実世界のインタラクティブな意思決定タスクにおいて、ベースラインを著しく上回ることがわかった。
私たちのコードはhttps://anonymous.4open.science/r/SkillFlow-E850で利用可能です。
関連論文リスト
- FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning [49.369614288007334]
FlowSteerは、エージェントと実行可能なキャンバス環境として軽量なポリシーモデルを採用する、エンドツーエンドの強化学習フレームワークである。
FlowSteerは様々なタスクでベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2026-02-02T05:30:42Z) - MermaidFlow: Redefining Agentic Workflow Generation via Safety-Constrained Evolutionary Programming [31.549367981711686]
本稿では,安全制約付きグラフの進化を通じてエージェント検索空間を再定義するフレームワークであるMermaidFlowを紹介する。
ドメインを意識した進化的演算子を定式化し、構造的多様性を促進しながら意味的正当性を維持する。
MermaidFlowは、成功率の一貫性の向上と、エージェント推論ベンチマークの実行可能な計画へのより高速な収束を実現している。
論文 参考訳(メタデータ) (2025-05-29T01:08:36Z) - AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは高速な推論速度で高い性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T10:15:38Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。