Fugu-MT 論文翻訳(概要): FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior

論文の概要: FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior

arxiv url: http://arxiv.org/abs/2407.04947v1
Date: Sat, 6 Jul 2024 03:35:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 21:47:42.848912
Title: FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior
Title（参考訳）: FreeCompose: 拡散前のゼロショット画像合成
Authors: Zhekai Chen, Wen Wang, Zhen Yang, Zeqing Yuan, Hao Chen, Chunhua Shen,
Abstract要約: 我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
参考スコア（独自算出の注目度）: 50.0535198082903
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We offer a novel approach to image composition, which integrates multiple input images into a single, coherent image. Rather than concentrating on specific use cases such as appearance editing (image harmonization) or semantic editing (semantic image composition), we showcase the potential of utilizing the powerful generative prior inherent in large-scale pre-trained diffusion models to accomplish generic image composition applicable to both scenarios. We observe that the pre-trained diffusion models automatically identify simple copy-paste boundary areas as low-density regions during denoising. Building on this insight, we propose to optimize the composed image towards high-density regions guided by the diffusion prior. In addition, we introduce a novel maskguided loss to further enable flexible semantic image composition. Extensive experiments validate the superiority of our approach in achieving generic zero-shot image composition. Additionally, our approach shows promising potential in various tasks, such as object removal and multiconcept customization.
Abstract（参考訳）: 我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。外観編集(画像調和)や意味編集(セマンティック画像合成)といった特定のユースケースに集中するのではなく、大規模事前学習拡散モデルに特有な強力な生成機能を活用し、両方のシナリオに適用可能な汎用画像合成を実現する可能性を示す。事前学習した拡散モデルでは, 単純なコピーペースト境界領域を低密度領域として自動的に識別する。本稿では, この知見に基づいて, 先行拡散によって導かれる高密度領域に対する合成画像の最適化を提案する。さらに、フレキシブルなセマンティック画像合成を可能にするために、新しいマスク誘導損失を導入する。総合的なゼロショット画像合成におけるアプローチの優位性を検証した。さらに,本手法は,オブジェクトの削除やマルチコンセプトのカスタマイズなど,様々なタスクにおいて有望な可能性を示す。

関連論文リスト

Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文参考訳（メタデータ） (2024-12-19T19:42:22Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。データセットとコードはリリースされます。
論文参考訳（メタデータ） (2024-06-12T03:40:17Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文参考訳（メタデータ） (2023-08-19T14:56:44Z)
TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。 TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文参考訳（メタデータ） (2023-07-24T02:50:44Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文参考訳（メタデータ） (2023-02-20T18:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。