論文の概要: Cross-domain Compositing with Pretrained Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.10167v1
- Date: Mon, 20 Feb 2023 18:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 14:30:44.094110
- Title: Cross-domain Compositing with Pretrained Diffusion Models
- Title(参考訳): 予混合拡散モデルを用いたクロスドメイン合成
- Authors: Roy Hachnochi, Mingrui Zhao, Nadav Orzech, Rinon Gal, Ali
Mahdavi-Amiri, Daniel Cohen-Or, Amit Haim Bermano
- Abstract要約: 我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
- 参考スコア(独自算出の注目度): 34.98199766006208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have enabled high-quality, conditional image editing
capabilities. We propose to expand their arsenal, and demonstrate that
off-the-shelf diffusion models can be used for a wide range of cross-domain
compositing tasks. Among numerous others, these include image blending, object
immersion, texture-replacement and even CG2Real translation or stylization. We
employ a localized, iterative refinement scheme which infuses the injected
objects with contextual information derived from the background scene, and
enables control over the degree and types of changes the object may undergo. We
conduct a range of qualitative and quantitative comparisons to prior work, and
exhibit that our method produces higher quality and realistic results without
requiring any annotations or training. Finally, we demonstrate how our method
may be used for data augmentation of downstream tasks.
- Abstract(参考訳): 拡散モデルは高品質で条件付き画像編集機能を実現している。
そこで本論文では,両機を拡張し,既製の拡散モデルが多種多様なクロスドメイン合成タスクに利用できることを示す。
画像のブレンド、オブジェクトの没入、テクスチャの再構成、cg2現実の翻訳やスタイリゼーションなどだ。
我々は,局所的で反復的なリファインメント・スキームを採用し,インジェクションされたオブジェクトに背景シーンから派生したコンテキスト情報を与え,オブジェクトが行う可能性のある変更の程度や種類を制御できる。
我々は,事前の作業と定性的かつ定量的な比較を行い,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られることを示した。
最後に,本手法が下流タスクのデータ拡張にどのように利用されるかを示す。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。
本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。
データセットとコードはリリースされます。
論文 参考訳(メタデータ) (2024-06-12T03:40:17Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。