論文の概要: RAD: Region-Aware Diffusion Models for Image Inpainting
- arxiv url: http://arxiv.org/abs/2412.09191v3
- Date: Thu, 19 Dec 2024 02:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:18.669153
- Title: RAD: Region-Aware Diffusion Models for Image Inpainting
- Title(参考訳): RAD:画像塗布のための領域認識拡散モデル
- Authors: Sora Kim, Sungho Suh, Minsik Lee,
- Abstract要約: 本研究では,バニラ拡散モデルの簡易かつ効果的な再構成による塗装用領域認識拡散モデル(RAD)を提案する。
RADは、最先端のアプローチよりも100倍高速な推論時間を実現する。
- 参考スコア(独自算出の注目度): 5.175186763756071
- License:
- Abstract: Diffusion models have achieved remarkable success in image generation, with applications broadening across various domains. Inpainting is one such application that can benefit significantly from diffusion models. Existing methods either hijack the reverse process of a pretrained diffusion model or cast the problem into a larger framework, \ie, conditioned generation. However, these approaches often require nested loops in the generation process or additional components for conditioning. In this paper, we present region-aware diffusion models (RAD) for inpainting with a simple yet effective reformulation of the vanilla diffusion models. RAD utilizes a different noise schedule for each pixel, which allows local regions to be generated asynchronously while considering the global image context. A plain reverse process requires no additional components, enabling RAD to achieve inference time up to 100 times faster than the state-of-the-art approaches. Moreover, we employ low-rank adaptation (LoRA) to fine-tune RAD based on other pretrained diffusion models, reducing computational burdens in training as well. Experiments demonstrated that RAD provides state-of-the-art results both qualitatively and quantitatively, on the FFHQ, LSUN Bedroom, and ImageNet datasets.
- Abstract(参考訳): 拡散モデルは画像生成において顕著な成功をおさめ、様々な領域にまたがって応用を広げている。
インペインティングは拡散モデルから大きな恩恵を受けることができるアプリケーションの一つである。
既存の方法は、事前訓練された拡散モデルの逆過程をハイジャックするか、より大きなフレームワークである \ie に問題をキャストする。
しかしながら、これらのアプローチは、生成プロセスのネストループや、条件付けのための追加のコンポーネントを必要とすることが多い。
本稿では,バニラ拡散モデルの簡易かつ効果的な再構成による塗装用領域認識拡散モデル(RAD)を提案する。
RADは各ピクセルごとに異なるノイズスケジュールを使用しており、グローバルな画像コンテキストを考慮してローカル領域を非同期に生成することができる。
プレーン・リバース・プロセスは追加のコンポーネントを必要としないため、RADは最先端のアプローチの100倍の速度で推論を行うことができる。
さらに、他の事前学習拡散モデルに基づいて、低ランク適応(LoRA)を微調整RADに適用し、トレーニングの計算負担を軽減した。
実験では、RADはFFHQ、LSUN Bedroom、ImageNetのデータセット上で、定性的かつ定量的に最先端の結果を提供することを示した。
関連論文リスト
- A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - TD-Paint: Faster Diffusion Inpainting Through Time Aware Pixel Conditioning [8.291380592932333]
Time-Aware Diffusion Paint (TD-Paint) は、画素レベルでの可変ノイズレベルをモデル化することによって拡散プロセスに適応する新しいアプローチである。
専用のアーキテクチャや高価な生成ループを必要とする従来の拡散ベースの塗装モデルとは異なり、TD-Paintはアーキテクチャの変更なしにより高速なサンプリング時間を実現する。
論文 参考訳(メタデータ) (2024-10-11T23:46:56Z) - Taming Latent Diffusion Model for Neural Radiance Field Inpainting [63.297262813285265]
ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。
本研究では,シーンごとのカスタマイズによる拡散モデルの傾向の緩和と,マスキングトレーニングによるテクスチャシフトの緩和を提案する。
我々のフレームワークは、様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。
論文 参考訳(メタデータ) (2024-04-15T17:59:57Z) - Global Structure-Aware Diffusion Process for Low-Light Image Enhancement [64.69154776202694]
本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。
我々は、その固有のODE-軌道の正規化を提唱する。
実験により,提案手法は低照度化において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-26T17:01:52Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。