論文の概要: MRStyle: A Unified Framework for Color Style Transfer with Multi-Modality Reference
- arxiv url: http://arxiv.org/abs/2409.05250v1
- Date: Mon, 9 Sep 2024 00:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:22:22.959204
- Title: MRStyle: A Unified Framework for Color Style Transfer with Multi-Modality Reference
- Title(参考訳): MRStyle:マルチモード参照によるカラースタイル転送のための統一フレームワーク
- Authors: Jiancheng Huang, Yu Gao, Zequn Jie, Yujie Zhong, Xintong Han, Lin Ma,
- Abstract要約: MRStyleは、画像やテキストを含む多モード参照を用いたカラースタイルの転送を可能にするフレームワークである。
テキスト参照では、安定拡散前のテキスト特徴とIRStyleのスタイル特徴とを一致させて、テキスト誘導カラースタイル転送(TRStyle)を行う。
我々のTRStyle法はトレーニングと推論の両方において極めて効率的であり、オープンセットのテキスト誘導転送結果を生成する。
- 参考スコア(独自算出の注目度): 32.64957647390327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce MRStyle, a comprehensive framework that enables color style transfer using multi-modality reference, including image and text. To achieve a unified style feature space for both modalities, we first develop a neural network called IRStyle, which generates stylized 3D lookup tables for image reference. This is accomplished by integrating an interaction dual-mapping network with a combined supervised learning pipeline, resulting in three key benefits: elimination of visual artifacts, efficient handling of high-resolution images with low memory usage, and maintenance of style consistency even in situations with significant color style variations. For text reference, we align the text feature of stable diffusion priors with the style feature of our IRStyle to perform text-guided color style transfer (TRStyle). Our TRStyle method is highly efficient in both training and inference, producing notable open-set text-guided transfer results. Extensive experiments in both image and text settings demonstrate that our proposed method outperforms the state-of-the-art in both qualitative and quantitative evaluations.
- Abstract(参考訳): 本稿では、画像やテキストを含む多モード参照を用いたカラースタイルの転送を可能にする、総合的なフレームワークであるMRStyleを紹介する。
両モードの統一型特徴空間を実現するために、まず、画像参照のためのスタイリングされた3Dルックアップテーブルを生成するIRStyleと呼ばれるニューラルネットワークを開発する。
これにより、視覚的アーティファクトの排除、メモリ使用率の低い高解像度イメージの効率的な処理、カラースタイルの大幅な変化がある状況においてもスタイル一貫性の維持という、3つの大きなメリットが得られる。
テキスト参照では、安定拡散前のテキスト特徴とIRStyleのスタイル特徴とを一致させて、テキスト誘導カラースタイル転送(TRStyle)を行う。
我々のTRStyle法はトレーニングと推論の両方において極めて効率的であり、オープンセットのテキスト誘導転送結果を生成する。
画像およびテキスト設定の広汎な実験により,提案手法は定性評価と定量的評価の両方において,最先端の手法よりも優れていることが示された。
関連論文リスト
- FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer [2.3293561091456283]
イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。
ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。
提案手法は,スライディングウィンドウクロップを組み込むことにより,パッチ間の情報インタラクションを向上させる。
論文 参考訳(メタデータ) (2024-08-20T04:20:11Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。