論文の概要: InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style
Adviser
- arxiv url: http://arxiv.org/abs/2311.15040v2
- Date: Fri, 2 Feb 2024 03:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:17:24.590797
- Title: InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style
Adviser
- Title(参考訳): InstaStyle:スタイリングされた画像の逆ノイズは秘かにスタイルアドバイス
- Authors: Xing Cui, Zekun Li, Pei Pei Li, Huaibo Huang, Zhaofeng He
- Abstract要約: 本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。
提案手法は,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
本稿では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。
- 参考スコア(独自算出の注目度): 22.130015124848367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized text-to-image generation focuses on creating images from textual
descriptions while adhering to a style specified by a few reference images.
However, subtle style variations within different reference images can hinder
the model from accurately learning the target style. In this paper, we propose
InstaStyle, a novel approach that excels in generating high-fidelity stylized
images with only a single reference image. Our approach is based on the finding
that the inversion noise from a stylized reference image inherently carries the
style signal, as evidenced by their non-zero signal-to-noise ratio. We employ
DDIM inversion to extract this noise from the reference image and leverage a
diffusion model to generate new stylized images from the "style" noise.
Additionally, the inherent ambiguity and bias of textual prompts impede the
precise conveying of style. To address this, we introduce a learnable style
token via prompt refinement, which enhances the accuracy of the style
description for the reference image. Qualitative and quantitative experimental
results demonstrate that InstaStyle achieves superior performance compared to
current benchmarks. Furthermore, our approach also showcases its capability in
the creative task of style combination with mixed inversion noise.
- Abstract(参考訳): スティル化されたテキスト画像生成は、いくつかの参照画像で指定されたスタイルに固執しながら、テキスト記述から画像を作成することに焦点を当てる。
しかし、異なる参照画像内の微妙なスタイルの変化は、モデルがターゲットのスタイルを正確に学習することを妨げる。
本稿では,単一の参照画像のみを用いた高忠実度スタイリッシュ画像の生成に優れた新しい手法であるinstastyleを提案する。
提案手法は,非ゼロ信号対雑音比で示されるように,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
ddimインバージョンを用いて基準画像からこの雑音を抽出し,拡散モデルを用いて「スタイル」ノイズから新たなスタイライゼーション画像を生成する。
さらに、テキストプロンプトの本来の曖昧さと偏見は、スタイルの正確な伝達を妨げる。
そこで本研究では,参照画像のスタイル記述の精度を高めるために,即時改善による学習可能なスタイルトークンを提案する。
質的かつ定量的な実験結果は、instastyleが現在のベンチマークよりも優れた性能を達成していることを示している。
さらに,本手法は,混合反転雑音と組み合わせたスタイルの創造的タスクにおいて,その能力を示す。
関連論文リスト
- Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter [74.68550659331405]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation [97.24936247688824]
本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Few-shot Font Generation by Learning Style Difference and Similarity [84.76381937516356]
異なるスタイルの違いと同一スタイルの類似性(DS-Font)を学習する新しいフォント生成手法を提案する。
具体的には,提案するクラスタレベルコントラシブ・スタイル(CCS)の損失により,スタイルエンコーディングを実現する多層型プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-01-24T13:57:25Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。