論文の概要: Workflow-R1: Group Sub-sequence Policy Optimization for Multi-turn Workflow Construction
- arxiv url: http://arxiv.org/abs/2602.01202v1
- Date: Sun, 01 Feb 2026 12:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.658124
- Title: Workflow-R1: Group Sub-sequence Policy Optimization for Multi-turn Workflow Construction
- Title(参考訳): Workflow-R1:マルチターンワークフロー構築のためのグループサブシーケンスポリシー最適化
- Authors: Mingze Kong, Zikun Qu, Zhongquan Zhou, Pengyu Liang, Xiang Li, Zhiwei Shang, Zhi Hong, Kaiyu Huang, Zhiyong Wang, Zhongxiang Dai,
- Abstract要約: 本稿では,ワークフロー構築を多ターン,自然言語に基づく逐次意思決定プロセスとして再構成するフレームワークであるグラデーション-R1を提案する。
GSsPOは、多ターンエージェントシーケンシャル意思決定タスクの幅広いクラスに一般化可能な構造対応RLアルゴリズムとして機能する。
- 参考スコア(独自算出の注目度): 25.928675237308074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of agentic workflows has demonstrated strong performance of LLM-based agents in addressing complex reasoning tasks. However, existing workflow optimization methods typically formulate workflow synthesis as a static, one-shot code-centric generation problem. This paradigm imposes excessive constraints on the model's coding capabilities and restricts the flexibility required for dynamic problem-solving. In this paper, we present Workflow-R1, a framework that reformulates workflow construction as a multi-turn, natural language-based sequential decision-making process. To resolve the optimization granularity mismatch inherent in such multi-turn interactions, we introduce Group Sub-sequence Policy Optimization (GSsPO). While explicitly tailored to align with the interleaved Think-Action dynamics of agentic reasoning, GSsPO fundamentally functions as a structure-aware RL algorithm generalizable to a broad class of multi-turn agentic sequential decision-making tasks. By recalibrating the optimization unit to the composite sub-sequence, specifically the atomic Think-Action cycle, it aligns gradient updates with the semantic boundaries of these interactions, ensuring robust learning in complex multi-turn reasoning tasks. Through extensive experiments on multiple QA benchmarks, Workflow-R1 outperforms competitive baselines, validating GSsPO as a generalized solution for sequential reasoning and establishing Workflow-R1 as a promising new paradigm for automated workflow optimization.
- Abstract(参考訳): エージェントワークフローの急速な進化は、複雑な推論タスクに対処するLLMベースのエージェントの強力な性能を示している。
しかし、既存のワークフロー最適化手法は、静的な1ショットのコード中心生成問題としてワークフロー合成を定式化するのが一般的である。
このパラダイムは、モデルのコーディング能力に過剰な制約を課し、動的な問題解決に必要な柔軟性を制限する。
本稿では,ワークフロー構築を多ターン,自然言語に基づく逐次意思決定プロセスとして再構成するフレームワークであるWorkflow-R1を提案する。
このようなマルチターン相互作用に固有の最適化の粒度ミスマッチを解決するために,グループサブシーケンスポリシー最適化(GSsPO)を導入する。
エージェント推論のインターリーブされたThink-Actionのダイナミクスに合わせるように明示的に調整されているが、GSsPOは基本的に、多ターンエージェントのシーケンシャル意思決定タスクの幅広いクラスに一般化可能な構造対応RLアルゴリズムとして機能する。
最適化単位を複合サブシーケンス、特に原子シンク・アクション・サイクルに再計算することで、勾配更新をこれらの相互作用の意味的境界と整合させ、複雑なマルチターン推論タスクにおいて堅牢な学習を保証する。
複数のQAベンチマークに関する広範な実験を通じて、Workflow-R1は競合するベースラインを上回っ、シーケンシャルな推論のための一般化されたソリューションとしてGSsPOを検証し、ワークフロー自動化のための将来的な新しいパラダイムとしてWorkflow-R1を確立する。
関連論文リスト
- SPOGW: a Score-based Preference Optimization method via Group-Wise comparison for workflows [23.667139832926225]
大規模言語モデル(LLM)は様々な分野、しばしばエージェントの使用を通じて、課題に対処する上で重要な能力を発揮している。
近年の研究では、建設に必要な人的介入を最小限に抑えることを目的としており、エージェントを最適化するための自動化技術の進歩につながっている。
SPOGWと呼ばれる新しいスコアベースの選好手法を導入し、グループワイド比較により、基数報酬信号を直接操作する。
論文 参考訳(メタデータ) (2025-10-05T08:26:29Z) - Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。