論文の概要: Style Aligned Image Generation via Shared Attention
- arxiv url: http://arxiv.org/abs/2312.02133v2
- Date: Thu, 11 Jan 2024 13:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:09:37.354461
- Title: Style Aligned Image Generation via Shared Attention
- Title(参考訳): 共有注意によるスタイルアライメント画像生成
- Authors: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
- Abstract要約: 本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
- 参考スコア(独自算出の注目度): 61.121465570763085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Text-to-Image (T2I) models have rapidly gained prominence across
creative fields, generating visually compelling outputs from textual prompts.
However, controlling these models to ensure consistent style remains
challenging, with existing methods necessitating fine-tuning and manual
intervention to disentangle content and style. In this paper, we introduce
StyleAligned, a novel technique designed to establish style alignment among a
series of generated images. By employing minimal `attention sharing' during the
diffusion process, our method maintains style consistency across images within
T2I models. This approach allows for the creation of style-consistent images
using a reference style through a straightforward inversion operation. Our
method's evaluation across diverse styles and text prompts demonstrates
high-quality synthesis and fidelity, underscoring its efficacy in achieving
consistent style across various inputs.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)モデルは、創造的分野全体で急速に普及し、テキスト・プロンプトから視覚的に魅力的な出力を生成する。
しかし、一貫性のあるスタイルを保証するためにこれらのモデルを制御することは依然として難しい。
本稿では,一連の生成画像間のスタイルアライメントを確立するための新しい手法であるスタイルアライメントを提案する。
拡散過程において最小限の「注意共有」を用いることで、T2Iモデル内の画像間のスタイル整合性を維持する。
このアプローチにより、簡単な反転操作を通じて、参照スタイルを使用してスタイル一貫性のある画像を作成することができる。
提案手法は,多種多様なスタイルとテキストのプロンプトにまたがって,高品質な合成と忠実さを示す。
関連論文リスト
- Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。