Fugu-MT 論文翻訳(概要): DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

論文の概要: DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.14216v1
Date: Thu, 21 Dec 2023 12:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 17:10:07.447045
Title: DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models
Title（参考訳）: DreamDistribution: テキスト-画像拡散モデルのためのプロンプト分布学習
Authors: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
Abstract要約: 本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
参考スコア（独自算出の注目度）: 53.17454737232668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
Abstract（参考訳）: テキスト画像拡散モデル(T2I)の普及により、テキスト記述から高品質な画像を生成することができる。しかし、視覚的属性を基準とした多様なカスタマイズ画像の生成は依然として困難である。この研究は、より抽象的な概念やカテゴリレベルでT2I拡散モデルをパーソナライズすることに焦点を当て、参照画像の集合から共通性を適応し、十分なバリエーションを持つ新しいインスタンスを作成する。本稿では,事前学習したT2I拡散モデルを用いてソフトプロンプトの集合を学習し,学習した分布からプロンプトを抽出して新しい画像を生成する方法を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。最後に,自動評価とヒューマンアセスメントを含む定量的分析により,本手法の有効性を示す。プロジェクトウェブサイト:https://briannlongzhao.github.io/DreamDistribution

関連論文リスト

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。実験により,画像の画質とレイアウト精度が大幅に向上した。
論文参考訳（メタデータ） (2023-11-28T14:51:13Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文参考訳（メタデータ） (2023-05-01T23:03:37Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。