論文の概要: Learning Diverse Tone Styles for Image Retouching
- arxiv url: http://arxiv.org/abs/2207.05430v1
- Date: Tue, 12 Jul 2022 09:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:35:04.391013
- Title: Learning Diverse Tone Styles for Image Retouching
- Title(参考訳): 画像修正のための多彩なトーンスタイル学習
- Authors: Haolin Wang, Jiawei Zhang, Ming Liu, Xiaohe Wu and Wangmeng Zuo
- Abstract要約: 本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
- 参考スコア(独自算出の注目度): 73.60013618215328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retouching, aiming to regenerate the visually pleasing renditions of
given images, is a subjective task where the users are with different aesthetic
sensations. Most existing methods deploy a deterministic model to learn the
retouching style from a specific expert, making it less flexible to meet
diverse subjective preferences. Besides, the intrinsic diversity of an expert
due to the targeted processing on different images is also deficiently
described. To circumvent such issues, we propose to learn diverse image
retouching with normalizing flow-based architectures. Unlike current flow-based
methods which directly generate the output image, we argue that learning in a
style domain could (i) disentangle the retouching styles from the image
content, (ii) lead to a stable style presentation form, and (iii) avoid the
spatial disharmony effects. For obtaining meaningful image tone style
representations, a joint-training pipeline is delicately designed, which is
composed of a style encoder, a conditional RetouchNet, and the image tone style
normalizing flow (TSFlow) module. In particular, the style encoder predicts the
target style representation of an input image, which serves as the conditional
information in the RetouchNet for retouching, while the TSFlow maps the style
representation vector into a Gaussian distribution in the forward pass. After
training, the TSFlow can generate diverse image tone style vectors by sampling
from the Gaussian distribution. Extensive experiments on MIT-Adobe FiveK and
PPR10K datasets show that our proposed method performs favorably against
state-of-the-art methods and is effective in generating diverse results to
satisfy different human aesthetic preferences. Source code and pre-trained
models are publicly available at https://github.com/SSRHeart/TSFlow.
- Abstract(参考訳): 画像のリタッチは、視覚的に快く再現することを目的としており、ユーザが異なる審美感を持つ主観的なタスクである。
既存のほとんどのメソッドは、特定の専門家からリタッチスタイルを学ぶために決定論的モデルをデプロイし、多様な主観的嗜好を満たす柔軟性を損なう。
また、異なる画像に対する対象処理による専門家の本質的な多様性についても記述する。
このような問題を回避するため,フローベースアーキテクチャを正規化して多様な画像修正を学習することを提案する。
出力画像を直接生成する現在のフローベース手法とは異なり、スタイル領域での学習は可能だと論じる。
(i)画像内容からリタッチスタイルを外す。
(ii)安定したスタイルのプレゼンテーション形式につながり、
(iii)空間的不調和は避ける。
有意義なイメージトーンスタイルの表現を得るために、スタイルエンコーダ、条件付きリタッチネット、画像トーンスタイルの正規化フロー(tsflow)モジュールからなるジョイントトレーニングパイプラインを繊細に設計する。
特に、スタイルエンコーダは、tsフローがスタイル表現ベクトルをフォワードパスのガウス分布にマップしながら、リタッチ用リタッチネットの条件情報として機能する入力画像のターゲットスタイル表現を予測する。
トレーニング後、tsflowはガウス分布からサンプリングすることで、多様な画像トーンスタイルベクトルを生成することができる。
MIT-Adobe FiveK と PPR10K データセットの大規模な実験により,提案手法は最先端の手法に対して好適に機能し,ヒトの審美的嗜好を満たす多様な結果を生成するのに有効であることが示された。
ソースコードと事前訓練されたモデルはhttps://github.com/SSRHeart/TSFlowで公開されている。
関連論文リスト
- DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts [45.730449182899754]
DiffRetouch という拡散型リタッチ方式。
4つの画像属性を調整可能とし、ユーザフレンドリーな編集機構を提供する。
テクスチャ歪みと制御感度の問題をそれぞれ扱うために,アフィン二元格子とコントラスト学習方式を導入する。
論文 参考訳(メタデータ) (2024-07-04T09:09:42Z) - Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。
我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。
本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文 参考訳(メタデータ) (2024-06-19T09:36:18Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN [22.57205921266602]
一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送される。
本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。
実験により、ソースイメージの正当性マップは正しいマッチングを見つけ出し、アーティファクトを避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2022-01-14T09:00:55Z) - P$^2$-GAN: Efficient Style Transfer Using Single Style Image [2.703193151632043]
スタイル転送は、与えられた画像を別の芸術的なスタイルに再レンダリングできる便利な画像合成技術である。
Generative Adversarial Network(GAN)は、ローカルスタイルパターンの表現能力を向上するために、このタスクに対して広く採用されているフレームワークである。
本稿では,ワンスタイル画像からストロークスタイルを効率的に学習できる新しいPatch Permutation GAN(P$2$-GAN)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-21T12:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。