論文の概要: Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language
- arxiv url: http://arxiv.org/abs/2604.19667v1
- Date: Tue, 21 Apr 2026 16:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.882651
- Title: Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language
- Title(参考訳): Chat2Workflow: 実行可能なビジュアルワークフローを自然言語で生成するためのベンチマーク
- Authors: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang,
- Abstract要約: Chat2Workflowは、自然言語から直接実行可能なビジュアルを生成するためのベンチマークである。
本稿では,繰り返し実行エラーを軽減するための堅牢なエージェントフレームワークを提案する。
我々のフレームワークは最大で5.34%のリゾルバ率を得るが、残りの現実世界のギャップはChat2Workflowを産業レベルの自動化の基盤として位置づけている。
- 参考スコア(独自算出の注目度): 29.66870012781284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.
- Abstract(参考訳): 現在、現実の産業展開において、実行可能なビジュアルワークフローが主流のパラダイムとして現れており、信頼性と制御性が強くなっています。
開発者はワークフローを慎重に設計し、各ステップにプロンプトを書き、要求が開発を進化させ、コストがかかり、時間がかかり、エラーが発生しやすいように、繰り返しロジックを修正しなければなりません。
大規模言語モデルがこの多ラウンドインタラクションプロセスを自動化できるかを検討するため,自然言語から直接実行可能なビジュアルワークフローを生成するベンチマークChat2Workflowを導入し,繰り返し実行エラーを軽減するための堅牢なエージェントフレームワークを提案する。
Chat2Workflowは現実世界のビジネスワークフローの大規模なコレクションから構築されており、各インスタンスは生成されたワークフローを変換し、DifyやCozeといった実用的なワークフロープラットフォームに直接デプロイできるように設計されている。
実験の結果、最先端の言語モデルは高レベルのインテントをキャプチャすることが多いが、特に複雑な要求や要求の変化の下では、正しい、安定した、実行可能なワークフローを生成するのに苦労していることがわかった。
我々のエージェントフレームワークは最大で5.34%のリゾルバ率を得るが、残りの現実世界のギャップはChat2Workflowを産業レベルの自動化の基盤として位置づけている。
コードはhttps://github.com/zjunlp/Chat2Workflowで入手できる。
関連論文リスト
- FlowMind: Execute-Summarize for Structured Workflow Generation from LLM Reasoning [5.153212048436295]
LLMは推論やツールの使用によって複雑なタスクを解くことができるが、これらのソリューションを構造化されたものに正確に翻訳することは依然として難しい。
ツール使用のシーケンスとしてモデル化し、タスクを解決し、それらを確実に構築できるメカニズムを設計するものとして問題を再構築する。
本稿では,ワークフロー構築からタスク実行を分離するExecute-Summarize(ES)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T10:04:42Z) - Learning to Compose for Cross-domain Agentic Workflow Generation [56.630382886594184]
クロスドメインワークフロー生成のためのオープンソースのLLMを作成します。
さまざまなドメインにわたる再利用可能なワークフロー機能のコンパクトなセットを学びます。
当社の1パスジェネレータは、20イテレーションを消費するSOTAリファインメントベースラインを超えています。
論文 参考訳(メタデータ) (2026-02-11T18:27:22Z) - DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。
社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。
結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-09-30T10:36:23Z) - WorkTeam: Constructing Workflows from Natural Language with Multi-Agents [6.656951366751657]
手作りのワークフロー構築には専門家の知識が必要です。
スーパーバイザ,オーケストレータ,フィラーエージェントで構成されるマルチエージェントNL2WorkflowフレームワークであるWorkTeamを提案する。
当社のアプローチはワークフロー構築の成功率を大幅に向上させ,エンタープライズNL2Workflowサービスの新規かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T14:33:29Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。
このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文 参考訳(メタデータ) (2024-11-30T20:00:41Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - AutoFlow: Automated Workflow Generation for Large Language Model Agents [39.72700864347576]
大規模言語モデル(LLM)は、複雑な自然言語を理解する上で大きな進歩を見せている。
LLMエージェントが与えられたタスクを解決するための効果的で信頼性の高い手順に従うようにするために、手動で設計されるのが通常である。
複雑なタスクを解決するためにエージェントを自動的に生成するフレームワークであるAutoFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。