論文の概要: ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.01731v1
- Date: Wed, 02 Oct 2024 16:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:24:42.007264
- Title: ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
- Title(参考訳): ComfyGen: テキストから画像生成のためのプロンプト適応ワークフロー
- Authors: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik,
- Abstract要約: 本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
- 参考スコア(独自算出の注目度): 87.39861573270173
- License:
- Abstract: The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.
- Abstract(参考訳): テキスト・ツー・イメージ生成の実践的利用は、単純でモノリシックなモデルから、複数の特殊なコンポーネントを組み合わせた複雑なワークフローへと進化してきた。
ワークフローベースのアプローチは画質の向上につながる可能性があるが、多数の利用可能なコンポーネント、複雑な依存関係、生成プロンプトへの依存など、効果的なワークフローの構築には相当な専門知識が必要である。
ここでは、各ユーザのプロンプトに自動的にワークフローをカスタマイズすることを目的として、プロンプト適応ワークフロー生成という新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
どちらのアプローチも、モノリシックモデルやジェネリックでプロンプトに依存しないワークフローと比較すると、画質が向上する。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
関連論文リスト
- AutoFlow: Automated Workflow Generation for Large Language Model Agents [39.72700864347576]
大規模言語モデル(LLM)は、複雑な自然言語を理解する上で大きな進歩を見せている。
LLMエージェントが与えられたタスクを解決するための効果的で信頼性の高い手順に従うようにするために、手動で設計されるのが通常である。
複雑なタスクを解決するためにエージェントを自動的に生成するフレームワークであるAutoFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:05:02Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - FlowMind: Automatic Workflow Generation with LLMs [12.848562107014093]
本稿では,Large Language Models(LLM)の機能を活用した新しいアプローチであるFlowMindを紹介する。
信頼性のあるアプリケーションプログラミングインタフェース(API)を用いたLLM推論を支援する講義のための汎用的なプロンプトレシピを提案する。
また、N-CENレポートからの質問応答タスクをベンチマークするための金融の新しいデータセットであるNCEN-QAについても紹介する。
論文 参考訳(メタデータ) (2024-03-17T00:36:37Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Towards Flexible Multi-modal Document Models [27.955214767628107]
本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。
われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。
実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
論文 参考訳(メタデータ) (2023-03-31T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。