論文の概要: Design Booster: A Text-Guided Diffusion Model for Image Translation with
Spatial Layout Preservation
- arxiv url: http://arxiv.org/abs/2302.02284v1
- Date: Sun, 5 Feb 2023 02:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:12:09.010839
- Title: Design Booster: A Text-Guided Diffusion Model for Image Translation with
Spatial Layout Preservation
- Title(参考訳): Design Booster:空間レイアウト保存による画像翻訳のためのテキストガイド拡散モデル
- Authors: Shiqi Sun, Shancheng Fang, Qian He, Wei Liu
- Abstract要約: 本稿では,テキスト条件とともにレイアウト認識された画像条件を学習し,フレキシブルな画像翻訳のための新しいアプローチを提案する。
本手法は,トレーニング期間中に画像とテキストを新しい領域に符号化する。
提案手法と最先端手法との実験的比較により,本手法はスタイル画像翻訳とセマンティック画像翻訳の両方において最適であることを示す。
- 参考スコア(独自算出の注目度): 12.365230063278625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are able to generate photorealistic images in arbitrary
scenes. However, when applying diffusion models to image translation, there
exists a trade-off between maintaining spatial structure and high-quality
content. Besides, existing methods are mainly based on test-time optimization
or fine-tuning model for each input image, which are extremely time-consuming
for practical applications. To address these issues, we propose a new approach
for flexible image translation by learning a layout-aware image condition
together with a text condition. Specifically, our method co-encodes images and
text into a new domain during the training phase. In the inference stage, we
can choose images/text or both as the conditions for each time step, which
gives users more flexible control over layout and content. Experimental
comparisons of our method with state-of-the-art methods demonstrate our model
performs best in both style image translation and semantic image translation
and took the shortest time.
- Abstract(参考訳): 拡散モデルは任意のシーンでフォトリアリスティックな画像を生成することができる。
しかし,画像翻訳に拡散モデルを適用する場合,空間構造維持と高品質コンテンツとのトレードオフが存在する。
また,既存の手法は主に各入力画像に対するテスト時間最適化や微調整モデルに基づいており,実用化には非常に時間がかかる。
そこで本研究では,テキスト条件とともにレイアウト認識型画像条件を学習し,フレキシブル画像翻訳のための新しい手法を提案する。
具体的には、トレーニングフェーズ中に画像とテキストを新しいドメインに共コードする。
推論の段階では、各時間ステップの条件として画像/テキストまたは両方を選択でき、レイアウトとコンテンツをより柔軟に制御できます。
提案手法と最先端手法との実験的比較により,本手法はスタイル画像翻訳とセマンティック画像翻訳の両方において最適であり,最短時間を要した。
関連論文リスト
- Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Towards Real-time Text-driven Image Manipulation with Unconditional
Diffusion Models [33.993466872389085]
画像操作を4.5~10倍高速に学習し、8倍高速に適用するアルゴリズムを開発した。
提案手法では,事前学習したモデルをユーザの指定した画像やテキスト記述にわずか4秒で適用することができる。
論文 参考訳(メタデータ) (2023-04-10T01:21:56Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。