論文の概要: DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts
- arxiv url: http://arxiv.org/abs/2407.03757v1
- Date: Thu, 4 Jul 2024 09:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:42:12.551966
- Title: DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts
- Title(参考訳): DiffRetouch: 専門家の肩に手を加えるために拡散を使う
- Authors: Zheng-Peng Duan, Jiawei zhang, Zheng Lin, Xin Jin, Dongqing Zou, Chunle Guo, Chongyi Li,
- Abstract要約: DiffRetouch という拡散型リタッチ方式。
4つの画像属性を調整可能とし、ユーザフレンドリーな編集機構を提供する。
テクスチャ歪みと制御感度の問題をそれぞれ扱うために,アフィン二元格子とコントラスト学習方式を導入する。
- 参考スコア(独自算出の注目度): 45.730449182899754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image retouching aims to enhance the visual quality of photos. Considering the different aesthetic preferences of users, the target of retouching is subjective. However, current retouching methods mostly adopt deterministic models, which not only neglects the style diversity in the expert-retouched results and tends to learn an average style during training, but also lacks sample diversity during inference. In this paper, we propose a diffusion-based method, named DiffRetouch. Thanks to the excellent distribution modeling ability of diffusion, our method can capture the complex fine-retouched distribution covering various visual-pleasing styles in the training data. Moreover, four image attributes are made adjustable to provide a user-friendly editing mechanism. By adjusting these attributes in specified ranges, users are allowed to customize preferred styles within the learned fine-retouched distribution. Additionally, the affine bilateral grid and contrastive learning scheme are introduced to handle the problem of texture distortion and control insensitivity respectively. Extensive experiments have demonstrated the superior performance of our method on visually appealing and sample diversity. The code will be made available to the community.
- Abstract(参考訳): 画像のリタッチは、写真の視覚的品質を高めることを目的としている。
ユーザによる審美的嗜好の相違を考慮すると、リタッチの対象は主観的である。
しかし、現在のリタッチ手法は、主に決定論的モデルを採用しており、専門家が修正した結果のスタイルの多様性を無視し、トレーニング中に平均的なスタイルを学ぶ傾向があるだけでなく、推論中にサンプルの多様性も欠いている。
本稿ではDiffRetouchという拡散法を提案する。
拡散の優れた分布モデリング能力により、トレーニングデータ中の様々な視覚的散布スタイルをカバーする複雑な微調整分布を捉えることができる。
さらに、4つの画像属性を調整可能とし、ユーザフレンドリな編集機構を提供する。
これらの属性を特定の範囲で調整することで、ユーザーは学習した微調整されたディストリビューション内で好みのスタイルをカスタマイズできる。
また,アフィン二方向格子とコントラスト学習方式を導入し,テクスチャ歪みと制御不感度の問題をそれぞれ処理する。
広汎な実験により,本手法の視覚的魅力とサンプルの多様性に対する優れた性能が実証された。
コードはコミュニティで利用可能になる。
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance [40.69996772681004]
既存の分類器を用いて拡散モデルを操り、画像のパーソナライズのためのトレーニングフリー手法を利用する。
本研究は,近年の補正フローの枠組みに基づいて,バニラ分類器指導の限界を簡単な固定点解法で解決できることを示唆する。
本発明の方法は、市販画像識別装置の異なる正流に実装され、人間の顔、生きた被写体、特定の対象物に対して有利なパーソナライズ結果を提供する。
論文 参考訳(メタデータ) (2024-05-23T15:12:15Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。