論文の概要: ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
- arxiv url: http://arxiv.org/abs/2506.09790v1
- Date: Wed, 11 Jun 2025 14:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.053827
- Title: ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
- Title(参考訳): ComfyUI-R1:ワークフロー生成のための推論モデルを探る
- Authors: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang,
- Abstract要約: 私たちはワークフローの自動生成のための最初の大きな推論モデルであるComfyUI-R1を紹介します。
ノードの選択、ワークフロー計画、コードレベルのワークフローを含む、長いチェーン・オブ・シンク(CoT)推論データを構築します。
実験の結果、我々の7B-パラメーターモデルでは、高いパスレート、ノードレベル、グラフレベルのF1スコアとともに、97%のフォーマットの妥当性が得られた。
- 参考スコア(独自算出の注目度): 49.09090292453288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated content has evolved from monolithic models to modular workflows, particularly on platforms like ComfyUI, enabling customization in creative pipelines. However, crafting effective workflows requires great expertise to orchestrate numerous specialized components, presenting a steep learning curve for users. To address this challenge, we introduce ComfyUI-R1, the first large reasoning model for automated workflow generation. Starting with our curated dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning data, including node selection, workflow planning, and code-level workflow representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT fine-tuning for cold start, adapting models to the ComfyUI domain; (2) reinforcement learning for incentivizing reasoning capability, guided by a fine-grained rule-metric hybrid reward, ensuring format validity, structural integrity, and node-level fidelity. Experiments show that our 7B-parameter model achieves a 97\% format validity rate, along with high pass rate, node-level and graph-level F1 scores, significantly surpassing prior state-of-the-art methods that employ leading closed-source models such as GPT-4o and Claude series. Further analysis highlights the critical role of the reasoning process and the advantage of transforming workflows into code. Qualitative comparison reveals our strength in synthesizing intricate workflows with diverse nodes, underscoring the potential of long CoT reasoning in AI art creation.
- Abstract(参考訳): AI生成コンテンツはモノリシックモデルからモジュール化されたワークフロー、特にComfyUIのようなプラットフォームへと進化し、クリエイティブパイプラインのカスタマイズを可能にしている。
しかし、効果的なワークフローを作成するには、多くの専門的なコンポーネントを編成する優れた専門知識が必要であり、ユーザにとって急な学習曲線が提示される。
この課題に対処するために、ワークフローの自動生成のための最初の大きな推論モデルであるComfyUI-R1を紹介します。
4Kワークフローのキュレートされたデータセットから始め、ノードの選択、ワークフロー計画、コードレベルのワークフロー表現を含む、長いチェーン・オブ・シンク(CoT)推論データを構築します。
ComfyUI-R1は、(1)コールドスタートのためのCoT微調整、(2)コンフィUIドメインへのモデル適用、(2)微粒なルールメトリックハイブリッド報酬による推論能力向上のための強化学習、フォーマットの妥当性の確保、構造的整合性、ノードレベルの忠実性。
GPT-4oやClaudeシリーズといった主要なクローズソースモデルを用いる先行技術よりも,高いパスレート,ノードレベル,グラフレベルのF1スコアとともに,我々の7Bパラメータモデルが97 %のフォーマット妥当性を達成することを示す実験結果が得られた。
さらなる分析では、推論プロセスの重要な役割と、ワークフローをコードに変換するメリットを強調している。
質的な比較は、複雑なワークフローをさまざまなノードで合成する上で、私たちの強みを明らかにします。
関連論文リスト
- Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation [71.31634636156384]
タスク記述に基づいてComfyUIを生成するように設計された,最初の自己最適化型マルチエージェントシステムであるComfyGPTを紹介する。
ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。
FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットであり、FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-03-22T06:48:50Z) - Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。
このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文 参考訳(メタデータ) (2024-11-30T20:00:41Z) - Generating a Low-code Complete Workflow via Task Decomposition and RAG [0.040964539027092926]
GenAIベースのシステムは、そのスケールと汎用性のために設計が難しい。
我々は、GenAIベースのシステムの設計パターンとして、タスク分解と検索拡張生成の2つのテクニックを定式化した。
これらの2つのパターンがAI開発サイクル全体に影響を与えるため、データセットの生成、モデルトレーニング、モデル評価、デプロイメントフェーズにどのように影響したかを説明します。
論文 参考訳(メタデータ) (2024-11-29T20:13:56Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。