論文の概要: TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition
- arxiv url: http://arxiv.org/abs/2307.12493v3
- Date: Tue, 10 Oct 2023 04:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:33:19.372784
- Title: TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition
- Title(参考訳): TF-ICON:拡散型学習自由領域画像合成
- Authors: Shilin Lu, Yanzhu Liu, Adams Wai-Kin Kong
- Abstract要約: TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
- 参考スコア(独自算出の注目度): 13.087647740473205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven diffusion models have exhibited impressive generative
capabilities, enabling various image editing tasks. In this paper, we propose
TF-ICON, a novel Training-Free Image COmpositioN framework that harnesses the
power of text-driven diffusion models for cross-domain image-guided
composition. This task aims to seamlessly integrate user-provided objects into
a specific visual context. Current diffusion-based methods often involve costly
instance-based optimization or finetuning of pretrained models on customized
datasets, which can potentially undermine their rich prior. In contrast,
TF-ICON can leverage off-the-shelf diffusion models to perform cross-domain
image-guided composition without requiring additional training, finetuning, or
optimization. Moreover, we introduce the exceptional prompt, which contains no
information, to facilitate text-driven diffusion models in accurately inverting
real images into latent representations, forming the basis for compositing. Our
experiments show that equipping Stable Diffusion with the exceptional prompt
outperforms state-of-the-art inversion methods on various datasets (CelebA-HQ,
COCO, and ImageNet), and that TF-ICON surpasses prior baselines in versatile
visual domains. Code is available at https://github.com/Shilin-LU/TF-ICON
- Abstract(参考訳): テキスト駆動拡散モデルは印象的な生成能力を示し、様々な画像編集タスクを可能にした。
本稿では,クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用する,新しいトレーニング自由画像合成フレームワークTF-ICONを提案する。
このタスクは、ユーザが提供するオブジェクトを視覚的なコンテキストにシームレスに統合することを目的としている。
現在の拡散ベースの方法は、多くの場合、カスタマイズされたデータセット上で事前学習されたモデルのコストのかかるインスタンスベースの最適化や微調整を伴う。
対照的に、TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずにクロスドメイン画像誘導合成を行うことができる。
さらに,実画像を正確に潜在表現に変換し,合成の基礎を形成するテキスト駆動拡散モデルを容易にするために,情報を持たない例外的なプロンプトを導入する。
実験により, 安定拡散を異常なプロンプトと組み合わせることで, 様々なデータセット(CelebA-HQ, COCO, ImageNet)における最先端の逆解析手法よりも優れており, TF-ICONは, 汎用視覚領域において従来のベースラインを超越していることがわかった。
コードはhttps://github.com/Shilin-LU/TF-ICONで入手できる。
関連論文リスト
- TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture [0.0]
InsertDiffusionは、オブジェクトを画像に効率的に埋め込む、トレーニング不要の拡散アーキテクチャである。
提案手法は既製の生成モデルを利用し,微調整の必要性を排除している。
生成タスクを独立したステップに分解することで、InsertDiffusionはスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-15T10:15:58Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。
本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。
データセットとコードはリリースされます。
論文 参考訳(メタデータ) (2024-06-12T03:40:17Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。