Fugu-MT 論文翻訳(概要): ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

論文の概要: ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2410.01731v1
Date: Wed, 2 Oct 2024 16:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 15:43:48.629249
Title: ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
Title（参考訳）: ComfyGen: テキストから画像生成のためのプロンプト適応ワークフロー
Authors: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik,
Abstract要約: 本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
参考スコア（独自算出の注目度）: 87.39861573270173
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.
Abstract（参考訳）: テキスト・ツー・イメージ生成の実践的利用は、単純でモノリシックなモデルから、複数の特殊なコンポーネントを組み合わせた複雑なワークフローへと進化してきた。ワークフローベースのアプローチは画質の向上につながる可能性があるが、多数の利用可能なコンポーネント、複雑な依存関係、生成プロンプトへの依存など、効果的なワークフローの構築には相当な専門知識が必要である。ここでは、各ユーザのプロンプトに自動的にワークフローをカスタマイズすることを目的として、プロンプト適応ワークフロー生成という新しいタスクを紹介する。本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。どちらのアプローチも、モノリシックモデルやジェネリックでプロンプトに依存しないワークフローと比較すると、画質が向上する。本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。

関連論文リスト

FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning [49.369614288007334]
FlowSteerは、エージェントと実行可能なキャンバス環境として軽量なポリシーモデルを採用する、エンドツーエンドの強化学習フレームワークである。 FlowSteerは様々なタスクでベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2026-02-02T05:30:42Z)
Opus: A Prompt Intention Framework for Complex Workflow Generation [0.0]
Opus Prompt Intention Frameworkは命令調整型大言語モデル(LLM)による複雑な生成を改善するように設計されているユーザクエリから信号や意図を抽出する,カスタマイズ可能な意図キャプチャシステムを提案する。提案システムでは,ユーザクエリからの直接生成と比較して,生成品質が著しく向上することを示す実証的証拠を提供する。
論文参考訳（メタデータ） (2025-07-15T13:13:07Z)
Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
SEW: Self-Evolving Agentic Workflows for Automated Code Generation [24.16770109875788]
textbfSelf-textbfEvolving textbfSEW(textbfSEW)を提案する。当社のSEWは,エージェントを自動設計し,自己進化を通じて最適化することが可能で,LiveCodeBenchの33%の改善を実現しています。
論文参考訳（メタデータ） (2025-05-24T11:12:14Z)
WorkTeam: Constructing Workflows from Natural Language with Multi-Agents [6.656951366751657]
手作りのワークフロー構築には専門家の知識が必要です。スーパーバイザ,オーケストレータ,フィラーエージェントで構成されるマルチエージェントNL2WorkflowフレームワークであるWorkTeamを提案する。当社のアプローチはワークフロー構築の成功率を大幅に向上させ,エンタープライズNL2Workflowサービスの新規かつ効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-03-28T14:33:29Z)
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation [71.31634636156384]
タスク記述に基づいてComfyUIを生成するように設計された,最初の自己最適化型マルチエージェントシステムであるComfyGPTを紹介する。 ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。 FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットであり、FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-03-22T06:48:50Z)
Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-21T12:21:09Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文参考訳（メタデータ） (2024-11-30T20:00:41Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。 MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文参考訳（メタデータ） (2024-09-24T03:30:19Z)
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。我々は、LLMベースのフレームワークであるGenAgentを紹介した。その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
AutoFlow: Automated Workflow Generation for Large Language Model Agents [39.72700864347576]
大規模言語モデル(LLM)は、複雑な自然言語を理解する上で大きな進歩を見せている。 LLMエージェントが与えられたタスクを解決するための効果的で信頼性の高い手順に従うようにするために、手動で設計されるのが通常である。複雑なタスクを解決するためにエージェントを自動的に生成するフレームワークであるAutoFlowを提案する。
論文参考訳（メタデータ） (2024-07-01T21:05:02Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。