論文の概要: D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods
- arxiv url: http://arxiv.org/abs/2408.03558v1
- Date: Wed, 7 Aug 2024 05:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:53:42.506246
- Title: D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods
- Title(参考訳): D2Styler:離散拡散法による任意スタイル転送の改善
- Authors: Onkar Susladkar, Gayatri Deshmukh, Sparsh Mittal, Parth Shastri,
- Abstract要約: D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
- 参考スコア(独自算出の注目度): 2.468658581089448
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In image processing, one of the most challenging tasks is to render an image's semantic meaning using a variety of artistic approaches. Existing techniques for arbitrary style transfer (AST) frequently experience mode-collapse, over-stylization, or under-stylization due to a disparity between the style and content images. We propose a novel framework called D$^2$Styler (Discrete Diffusion Styler) that leverages the discrete representational capability of VQ-GANs and the advantages of discrete diffusion, including stable training and avoidance of mode collapse. Our method uses Adaptive Instance Normalization (AdaIN) features as a context guide for the reverse diffusion process. This makes it easy to move features from the style image to the content image without bias. The proposed method substantially enhances the visual quality of style-transferred images, allowing the combination of content and style in a visually appealing manner. We take style images from the WikiArt dataset and content images from the COCO dataset. Experimental results demonstrate that D$^2$Styler produces high-quality style-transferred images and outperforms twelve existing methods on nearly all the metrics. The qualitative results and ablation studies provide further insights into the efficacy of our technique. The code is available at https://github.com/Onkarsus13/D2Styler.
- Abstract(参考訳): 画像処理において最も難しい課題の1つは、様々な芸術的アプローチを用いて画像の意味を表現することである。
任意のスタイル転送(AST)のための既存の技術は、スタイルとコンテンツイメージの相違により、しばしばモード崩壊、オーバースティル化、アンダースティル化を経験する。
本稿では,D$^2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
これにより、スタイルイメージからコンテンツイメージへの機能をバイアスなく簡単に移動できる。
提案手法は,スタイル変換画像の視覚的品質を大幅に向上させ,コンテンツとスタイルの組み合わせを視覚的に魅力的な方法で実現する。
WikiArtデータセットのスタイルイメージとCOCOデータセットのコンテンツイメージを取ります。
実験の結果、D$^2$Stylerは高品質なスタイル変換画像を生成し、ほぼ全てのメトリクスで既存の12の手法より優れていることが示された。
定性的な結果とアブレーション研究により,本手法の有効性についてさらなる知見が得られた。
コードはhttps://github.com/Onkarsus13/D2Stylerで入手できる。
関連論文リスト
- DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Improving the Latent Space of Image Style Transfer [24.37383949267162]
事前訓練されたエンコーダの特徴統計は、私たちが認識した視覚的スタイルと一致しない場合もある。
そのような不適切な潜在空間では、既存の手法の目的関数は間違った方向に最適化される。
本稿では,この課題に適合する洗練されたエンコーダを得るための2つの対照的な訓練手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T15:13:01Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。