論文の概要: Semantic-Driven Initial Image Construction for Guided Image Synthesis in
Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.08872v1
- Date: Wed, 13 Dec 2023 03:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:39:30.367810
- Title: Semantic-Driven Initial Image Construction for Guided Image Synthesis in
Diffusion Model
- Title(参考訳): 拡散モデルにおける誘導画像合成のためのセマンティクス駆動初期画像構築
- Authors: Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa
- Abstract要約: 本稿では,初期画像構築のための複数の初期雑音から,事前合成,意味的インフォームド・ピクセルブロックを用いた新しい手法を提案する。
提案手法は,トレーニング不要なレイアウト・ツー・イメージ合成タスクにおいて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 34.417119749031535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The initial noise image has demonstrated a significant influence on image
generation, and manipulating the initial noise image can effectively increase
control over the generation. All of the current generation is based only on a
single initial noise drawn from a normal distribution, which may not be suited
to the desired content specified by the prompt. In this research, we propose a
novel approach using pre-collected, semantically-informed pixel blocks from
multiple initial noises for the initial image construction to enhance control
over the image generation. The inherent tendencies of these pixel blocks can
easily generate specific content, thus effectively guiding the generation
process towards the desired content. The pursuit of tailored initial image
construction inevitably leads to deviations from the normal distribution, and
our experimental results show that the diffusion model exhibits a certain
degree of tolerance towards the distribution of initial images. Our approach
achieves state-of-the-art performance in the training-free layout-to-image
synthesis task, demonstrating the adaptability of the initial image
construction in guiding the content of the generated image. Our code will be
made publicly available.
- Abstract(参考訳): 初期ノイズ画像は画像生成に大きな影響を与えており、初期ノイズ画像を操作することで、生成に対する制御を効果的に向上させることができる。
現在の生成は、通常分布から引き出された1つの初期ノイズのみに基づいており、プロンプトによって指定された所望のコンテンツには適さない可能性がある。
本研究では,画像生成の制御性を高めるために,複数の初期雑音から予め選択された意味的インフォームド画素ブロックを用いた新しい手法を提案する。
これらのピクセルブロックの固有の傾向は、特定のコンテンツを容易に生成できるため、望ましいコンテンツに向けて生成プロセスを効果的に導くことができる。
修正初期画像構築の追求は必然的に通常の分布から逸脱することとなり, 実験結果から拡散モデルが初期画像の分布に対してある程度の耐性を示すことが示された。
提案手法は,トレーニング不要なレイアウト・画像合成タスクにおける最先端性能を実現し,生成画像の内容の導出における初期画像構築の適応性を示す。
私たちのコードは公開されます。
関連論文リスト
- Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。
本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-12T14:30:45Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文 参考訳(メタデータ) (2023-05-05T09:27:59Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Disentangling Noise from Images: A Flow-Based Image Denoising Neural
Network [25.008542061247383]
本稿では,イメージデノベーションを分散学習と切り離しタスクとして扱うための新しい視点を提案する。
ノイズ画像分布は、クリーン画像とノイズの結合分布と見なすことができるので、潜在表現をクリーン表現に操作することにより、消音画像を得ることができる。
我々は、クリーンまたはノイズ分布のいずれかの仮定なしに、反転型消音ネットワーク、FDNを提示します。
論文 参考訳(メタデータ) (2021-05-11T01:52:26Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。