論文の概要: ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation
- arxiv url: http://arxiv.org/abs/2503.17671v1
- Date: Sat, 22 Mar 2025 06:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:31.674289
- Title: ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation
- Title(参考訳): ComfyGPT: 総合ComfyUIワークフロー生成のための自己最適化マルチエージェントシステム
- Authors: Oucheng Huang, Yuhang Ma, Zeng Zhao, Mingrui Wu, Jiayi Ji, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: タスク記述に基づいてComfyUIを生成するように設計された,最初の自己最適化型マルチエージェントシステムであるComfyGPTを紹介する。
ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。
FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットであり、FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 71.31634636156384
- License:
- Abstract: ComfyUI provides a widely-adopted, workflow-based interface that enables users to customize various image generation tasks through an intuitive node-based architecture. However, the intricate connections between nodes and diverse modules often present a steep learning curve for users. In this paper, we introduce ComfyGPT, the first self-optimizing multi-agent system designed to generate ComfyUI workflows based on task descriptions automatically. ComfyGPT comprises four specialized agents: ReformatAgent, FlowAgent, RefineAgent, and ExecuteAgent. The core innovation of ComfyGPT lies in two key aspects. First, it focuses on generating individual node links rather than entire workflows, significantly improving generation precision. Second, we proposed FlowAgent, a LLM-based workflow generation agent that uses both supervised fine-tuning (SFT) and reinforcement learning (RL) to improve workflow generation accuracy. Moreover, we introduce FlowDataset, a large-scale dataset containing 13,571 workflow-description pairs, and FlowBench, a comprehensive benchmark for evaluating workflow generation systems. We also propose four novel evaluation metrics: Format Validation (FV), Pass Accuracy (PA), Pass Instruct Alignment (PIA), and Pass Node Diversity (PND). Experimental results demonstrate that ComfyGPT significantly outperforms existing LLM-based methods in workflow generation.
- Abstract(参考訳): ComfyUIは広く採用されているワークフローベースのインターフェースで、直感的なノードベースのアーキテクチャを通じて、さまざまな画像生成タスクをカスタマイズすることができる。
しかし、ノードと多様なモジュールの間の複雑な接続は、ユーザにとって急激な学習曲線を示すことが多い。
本稿では,タスク記述に基づくComfyUIワークフローの自動生成を目的とした,最初の自己最適化マルチエージェントシステムであるComfyGPTを紹介する。
ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。
ComfyGPTの中核的なイノベーションは2つの重要な側面にある。
まず、ワークフロー全体ではなく、個々のノードリンクの生成に焦点を当て、生成精度を大幅に改善する。
第2に,教師付き微調整(SFT)と強化学習(RL)の両方を用いてワークフロー生成精度を向上させるLLMベースのワークフロー生成エージェントであるFlowAgentを提案する。
さらに,13,571組のワークフロー記述ペアを含む大規模データセットであるFlowDatasetと,ワークフロー生成システムを評価するための包括的なベンチマークであるFlowBenchを紹介する。
また,Format Validation (FV), Pass Accuracy (PA), Pass Instruct Alignment (PIA), Pass Node Diversity (PND)の4つの新しい評価指標を提案する。
実験の結果,ComfyGPTはワークフロー生成において,既存のLCM法よりも大幅に優れていた。
関連論文リスト
- Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。
このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文 参考訳(メタデータ) (2024-11-30T20:00:41Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。
我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。
6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文 参考訳(メタデータ) (2024-10-14T17:40:40Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - FlowMind: Automatic Workflow Generation with LLMs [12.848562107014093]
本稿では,Large Language Models(LLM)の機能を活用した新しいアプローチであるFlowMindを紹介する。
信頼性のあるアプリケーションプログラミングインタフェース(API)を用いたLLM推論を支援する講義のための汎用的なプロンプトレシピを提案する。
また、N-CENレポートからの質問応答タスクをベンチマークするための金融の新しいデータセットであるNCEN-QAについても紹介する。
論文 参考訳(メタデータ) (2024-03-17T00:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。