論文の概要: PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference
- arxiv url: http://arxiv.org/abs/2410.21966v2
- Date: Sat, 02 Nov 2024 07:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:38.862623
- Title: PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference
- Title(参考訳): PrefPaint: 人間の嗜好による拡散モデルへの適応
- Authors: Kendong Liu, Zhiyu Zhu, Chuanhao Li, Hui Liu, Huanqiang Zeng, Junhui Hou,
- Abstract要約: 画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 62.72779589895124
- License:
- Abstract: In this paper, we make the first attempt to align diffusion models for image inpainting with human aesthetic standards via a reinforcement learning framework, significantly improving the quality and visual appeal of inpainted images. Specifically, instead of directly measuring the divergence with paired images, we train a reward model with the dataset we construct, consisting of nearly 51,000 images annotated with human preferences. Then, we adopt a reinforcement learning process to fine-tune the distribution of a pre-trained diffusion model for image inpainting in the direction of higher reward. Moreover, we theoretically deduce the upper bound on the error of the reward model, which illustrates the potential confidence of reward estimation throughout the reinforcement alignment process, thereby facilitating accurate regularization. Extensive experiments on inpainting comparison and downstream tasks, such as image extension and 3D reconstruction, demonstrate the effectiveness of our approach, showing significant improvements in the alignment of inpainted images with human preference compared with state-of-the-art methods. This research not only advances the field of image inpainting but also provides a framework for incorporating human preference into the iterative refinement of generative models based on modeling reward accuracy, with broad implications for the design of visually driven AI applications. Our code and dataset are publicly available at https://prefpaint.github.io.
- Abstract(参考訳): 本稿では,画像インペイントにおける拡散モデルとヒトの審美基準との整合性を,強化学習フレームワークを用いて実現し,インペイント画像の品質と視覚的魅力を著しく向上させる試みを行う。
具体的には、ペア画像による偏差を直接測定する代わりに、人間の好みを付加した約51,000枚の画像からなるデータセットを用いて報酬モデルをトレーニングする。
そこで我々は,画像インペイントのための事前学習拡散モデルの分布を,より高い報酬の方向に微調整する強化学習プロセスを採用した。
さらに, 理論上, 報酬モデルの誤差の上限を推定し, 精度の高い正則化を容易にする。
画像拡張や3次元再構成などのインペイント比較およびダウンストリームタスクに関する広範囲な実験により,本手法の有効性が示され,インペイント画像と人間の嗜好との整合性は,最先端の手法と比較して著しく向上した。
この研究は、画像インペイントの分野を前進させるだけでなく、モデリング報酬の精度に基づく生成モデルの反復的洗練に人間の嗜好を取り入れる枠組みも提供し、視覚駆動型AIアプリケーションの設計に幅広い意味を持つ。
私たちのコードとデータセットはhttps://prefpaint.github.io.comで公開されています。
関連論文リスト
- Towards Unsupervised Blind Face Restoration using Diffusion Prior [12.69610609088771]
ブラインド顔復元法は、教師付き学習による大規模合成データセットの訓練において、顕著な性能を示した。
これらのデータセットは、手作りの画像分解パイプラインで、低品質の顔イメージをシミュレートすることによって生成されることが多い。
本稿では, 入力画像の集合のみを用いて, 劣化が不明で, 真理の目標がない場合にのみ, 復元モデルの微調整を行うことにより, この問題に対処する。
我々の最良のモデルは、合成と実世界の両方のデータセットの最先端の結果も達成します。
論文 参考訳(メタデータ) (2024-10-06T20:38:14Z) - Diffusion-based image inpainting with internal learning [4.912318087940015]
本稿では,1枚の画像,あるいは数枚の画像でトレーニング可能な画像インペイントのための軽量拡散モデルを提案する。
このアプローチは,特定のケースにおいて,最先端の大規模モデルと競合することを示す。
論文 参考訳(メタデータ) (2024-06-06T16:04:06Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。
CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文 参考訳(メタデータ) (2021-02-24T02:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。