論文の概要: FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01664v1
- Date: Mon, 02 Feb 2026 05:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.92151
- Title: FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning
- Title(参考訳): FlowSteer: エンドツーエンド強化学習による対話型エージェントワークフローオーケストレーション
- Authors: Mingda Zhang, Haoran Luo, Tiesunlong Shen, Qika Lin, Xiaoying Tang, Rui Mao, Erik Cambria,
- Abstract要約: FlowSteerは、エージェントと実行可能なキャンバス環境として軽量なポリシーモデルを採用する、エンドツーエンドの強化学習フレームワークである。
FlowSteerは様々なタスクでベースラインを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 49.369614288007334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, a variety of powerful agentic workflows have been applied to solve a wide range of human problems. However, existing workflow orchestration still faces key challenges, including high manual cost, reliance on specific operators/large language models (LLMs), and sparse reward signals. To address these challenges, we propose FlowSteer, an end-to-end reinforcement learning framework that takes a lightweight policy model as the agent and an executable canvas environment, automating workflow orchestration through multi-turn interaction. In this process, the policy model analyzes execution states and selects editing actions, while the canvas executes operators and returns feedback for iterative refinement. Moreover, FlowSteer provides a plug-and-play framework that supports diverse operator libraries and interchangeable LLM backends. To effectively train this interaction paradigm, we propose Canvas Workflow Relative Policy Optimization (CWRPO), which introduces diversity-constrained rewards with conditional release to stabilize learning and suppress shortcut behaviors. Experimental results on twelve datasets show that FlowSteer significantly outperforms baselines across various tasks.
- Abstract(参考訳): 近年,多種多様なエージェントワークフローが応用され,人類の課題が解決されている。
しかし、既存のワークフローオーケストレーションは、高い手作業コスト、特定の演算子/大規模言語モデル(LLM)への依存、わずかな報酬信号など、依然として大きな課題に直面している。
エージェントとして軽量なポリシモデルと実行可能なキャンバス環境を採用し,マルチターンインタラクションによるワークフローオーケストレーションを自動化する,エンドツーエンドの強化学習フレームワークであるFlowSteerを提案する。
このプロセスでは、ポリシーモデルは実行状態を分析し、編集動作を選択し、キャンバスは演算子を実行し、反復的な改善のためのフィードバックを返す。
さらに、FlowSteerは様々な演算子ライブラリと交換可能なLLMバックエンドをサポートするプラグイン・アンド・プレイのフレームワークを提供する。
この相互作用のパラダイムを効果的に学習するために,多様性に制約のある報酬を条件付きリリースで導入し,学習の安定化とショートカット動作の抑制を行うCanvas Workflow Relative Policy Optimization (CWRPO)を提案する。
12のデータセットの実験結果は、FlowSteerがさまざまなタスクでベースラインを大幅に上回っていることを示している。
関連論文リスト
- Workflow-R1: Group Sub-sequence Policy Optimization for Multi-turn Workflow Construction [25.928675237308074]
本稿では,ワークフロー構築を多ターン,自然言語に基づく逐次意思決定プロセスとして再構成するフレームワークであるグラデーション-R1を提案する。
GSsPOは、多ターンエージェントシーケンシャル意思決定タスクの幅広いクラスに一般化可能な構造対応RLアルゴリズムとして機能する。
論文 参考訳(メタデータ) (2026-02-01T12:44:59Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - HAWK: A Hierarchical Workflow Framework for Multi-Agent Collaboration [3.2588674134593942]
マルチエージェントシステムは、クロスプラットフォームの相互運用性、動的タスクスケジューリング、効率的なリソース共有において永続的な課題に直面している。
階層型エージェント (Hawk) は, ユーザ, オペレータ, エージェント, リソースの5つのレイヤから構成され, 16の標準化インターフェースでサポートされているモジュール型フレームワークである。
Hawkはタスク解析、ワークフローオーケストレーション、インテリジェントスケジューリング、リソース呼び出し、データ同期をカバーしたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2025-07-05T15:03:53Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。