Fugu-MT 論文翻訳(概要): ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

論文の概要: ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

arxiv url: http://arxiv.org/abs/2311.05463v1
Date: Thu, 9 Nov 2023 15:50:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 14:54:07.245553
Title: ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors
Title（参考訳）: 制御スタイル:拡散優先を用いたテキスト駆動スタイリズド画像生成
Authors: Jingwen Chen and Yingwei Pan and Ting Yao and Tao Mei
Abstract要約: そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
参考スコア（独自算出の注目度）: 105.37795139586075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the multimedia community has witnessed the rise of diffusion models trained on large-scale multi-modal data for visual content creation, particularly in the field of text-to-image generation. In this paper, we propose a new task for ``stylizing'' text-to-image models, namely text-driven stylized image generation, that further enhances editability in content creation. Given input text prompt and style image, this task aims to produce stylized images which are both semantically relevant to input text prompt and meanwhile aligned with the style image in style. To achieve this, we present a new diffusion model (ControlStyle) via upgrading a pre-trained text-to-image model with a trainable modulation network enabling more conditions of text prompts and style images. Moreover, diffusion style and content regularizations are simultaneously introduced to facilitate the learning of this modulation network with these diffusion priors, pursuing high-quality stylized text-to-image generation. Extensive experiments demonstrate the effectiveness of our ControlStyle in producing more visually pleasing and artistic results, surpassing a simple combination of text-to-image model and conventional style transfer techniques.
Abstract（参考訳）: 近年,マルチメディアコミュニティでは,特にテキスト対画像生成の分野で,大規模マルチモーダルデータを用いた拡散モデルが普及している。本稿では,「スタイライズ」テキスト・イメージモデル,すなわちテキスト駆動型スタイリング画像生成のための新しいタスクを提案し,コンテンツ作成における編集性をさらに向上させる。本課題は,入力テキストプロンプトとスタイルイメージが与えられた場合,入力テキストプロンプトに意味的に関連し,スタイルイメージのスタイルに整合したスタイル化された画像を生成することである。そこで本研究では,事前学習されたテキストから画像へのモデルと,学習可能な変調ネットワークをアップグレードすることで,テキストプロンプトやスタイル画像の条件を増大させる新しい拡散モデル(コントロールスタイル)を提案する。さらに,これらの拡散前処理による変調ネットワークの学習を容易にするために,拡散スタイルとコンテンツ正規化を同時に導入し,高品質なテキスト・画像生成を追求する。テキストから画像への単純なモデルと従来のスタイル転送技術の組み合わせを上回って,より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性を広範な実験により実証した。

関連論文リスト

ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [25.610375901522886]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。注意に基づくスタイル抽出モジュールを導入する。また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文参考訳（メタデータ） (2025-01-03T19:17:27Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation [38.730628018627975]
本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
論文参考訳（メタデータ） (2024-06-12T16:43:47Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文参考訳（メタデータ） (2024-05-21T06:43:03Z)
StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文参考訳（メタデータ） (2024-05-08T12:57:53Z)
Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文参考訳（メタデータ） (2023-12-04T18:55:35Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。