論文の概要: CSGO: Content-Style Composition in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2408.16766v2
- Date: Wed, 4 Sep 2024 10:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 12:43:35.616615
- Title: CSGO: Content-Style Composition in Text-to-Image Generation
- Title(参考訳): CSGO:テキスト・画像生成におけるコンテンツスタイルの構成
- Authors: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li,
- Abstract要約: 本稿では,スタイリングされたデータトレーレットを自動生成し,自動的にクリーニングするコンテントスタイルのイメージトレーレットのためのデータ構築パイプラインを提案する。
このパイプラインに基づいて、210kの画像トリプレットを含む最初の大規模スタイル転送データセットであるIMAGStyleを構築した。
本稿では,コンテンツとスタイルの機能を明確に分離した,エンドツーエンドのトレーニングに基づくスタイル転送モデルCSGOを提案する。
- 参考スコア(独自算出の注目度): 18.737752718787196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: \url{https://csgo-gen.github.io/}.
- Abstract(参考訳): 拡散モデルは、制御された画像生成において例外的な機能を示し、画像スタイルの転送への関心をさらに高めた。
既存の研究は主に、特定のデータが不足しているため、自由な手法(例えば、画像の反転)の訓練に重点を置いている。
本研究では,スタイリングされたデータ三重項を自動生成・浄化するコンテントスタイルの画像三重項に対するデータ構築パイプラインを提案する。
このパイプラインに基づいて、210kのイメージトリプレットを含む最初の大規模スタイル転送データセットであるIMAGStyleを構築し、コミュニティが探索と調査を行うことができる。
IMAGStyleを組み込んだCSGOを提案する。CSGOはエンドツーエンドのトレーニングに基づくスタイル伝達モデルであり、独立した特徴注入を用いたコンテンツとスタイルの特徴を明示的に分離する。
統一CSGOは、画像駆動型スタイル変換、テキスト駆動型スタイル合成、テキスト編集型スタイル合成を実装している。
画像生成におけるスタイル制御機能向上に対する我々のアプローチの有効性を,広範囲にわたる実験により実証した。
ソースコードへのさらなる視覚化とアクセスは、プロジェクトページにある。
関連論文リスト
- Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。