論文の概要: NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on
Noise Cropping and Merging
- arxiv url: http://arxiv.org/abs/2403.03485v1
- Date: Wed, 6 Mar 2024 05:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:08:03.063699
- Title: NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on
Noise Cropping and Merging
- Title(参考訳): ノイズコラージュ:ノイズクロップとマージに基づくレイアウト対応テキスト・画像拡散モデル
- Authors: Takahiro Shirakawa, Seiichi Uchida
- Abstract要約: 本稿では,ノイズコラージュと呼ばれる新しいレイアウト対応テキスト・画像拡散モデルを提案する。
ノイズコラージュは個別の物体のノイズを独立に推定し、それを収穫して1つのノイズにマージする。
NoiseCollage は ControlNet と統合して,エッジやスケッチ,スケルトンを追加条件として使用することができる。
- 参考スコア(独自算出の注目度): 7.8231243791363285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout-aware text-to-image generation is a task to generate multi-object
images that reflect layout conditions in addition to text conditions. The
current layout-aware text-to-image diffusion models still have several issues,
including mismatches between the text and layout conditions and quality
degradation of generated images. This paper proposes a novel layout-aware
text-to-image diffusion model called NoiseCollage to tackle these issues.
During the denoising process, NoiseCollage independently estimates noises for
individual objects and then crops and merges them into a single noise. This
operation helps avoid condition mismatches; in other words, it can put the
right objects in the right places. Qualitative and quantitative evaluations
show that NoiseCollage outperforms several state-of-the-art models. These
successful results indicate that the crop-and-merge operation of noises is a
reasonable strategy to control image generation. We also show that NoiseCollage
can be integrated with ControlNet to use edges, sketches, and pose skeletons as
additional conditions. Experimental results show that this integration boosts
the layout accuracy of ControlNet. The code is available at
https://github.com/univ-esuty/noisecollage.
- Abstract(参考訳): Layout-aware text-to-image generationは、テキスト条件に加えてレイアウト条件を反映したマルチオブジェクト画像を生成するタスクである。
現在のレイアウト対応のテキスト画像拡散モデルには、テキストとレイアウト条件のミスマッチや、生成された画像の品質劣化など、いくつかの問題がある。
本稿では,これらの問題に対処する新しいレイアウト対応テキスト・画像拡散モデルであるNossCollageを提案する。
ノイズコラージュは個別の物体のノイズを独立に推定し、それを収穫して1つのノイズにマージする。
この操作は条件ミスマッチを避けるのに役立つ。言い換えれば、適切なオブジェクトを適切な場所に配置することができる。
定性的および定量的評価は、ノイズコラージュがいくつかの最先端モデルより優れていることを示している。
これらの結果から,ノイズの収量とマージ操作が画像生成を制御する合理的な戦略であることが示唆された。
また,ノイズコラージュをコントロールネットと統合することで,エッジやスケッチ,ポーズスケルトンを追加条件として使用できることを示した。
実験の結果,この統合によりコントロールネットのレイアウト精度が向上することがわかった。
コードはhttps://github.com/univ-esuty/noisecollageで入手できる。
関連論文リスト
- iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - An Edit Friendly DDPM Noise Space: Inversion and Manipulations [22.356884847119616]
そこで本研究では,DDPMの簡易な操作により,幅広い編集操作が可能となる潜在雑音空間を提案する。
この特性により,多様なDDPMサンプリング方式を用いて実画像のテキストベースの編集が可能となることを示す。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。
論文 参考訳(メタデータ) (2023-04-12T19:47:13Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Noise2NoiseFlow: Realistic Camera Noise Modeling without Clean Images [35.29066692454865]
本稿では,ノイズモデルとデノイザを同時にトレーニングするためのフレームワークを提案する。
ノイズ/クリーンなペア画像データではなく、ノイズの多いイメージのペアに依存します。
トレーニングされたデノイザーは、教師付きおよび弱教師付きベースラインデノイジングアプローチの両方において、大幅に改善される。
論文 参考訳(メタデータ) (2022-06-02T15:31:40Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - IDR: Self-Supervised Image Denoising via Iterative Data Refinement [66.5510583957863]
本稿では,最先端のデノナイジング性能を実現するために,教師なしの実用的なデノナイジング手法を提案する。
本手法では, 1つのノイズ画像と1つのノイズモデルしか必要とせず, 実際の生画像に容易にアクセス可能である。
実世界のアプリケーションにおける生画像復調性能を評価するため,500シーンのシーンを含む高品質な生画像データセットSenseNoise-500を構築した。
論文 参考訳(メタデータ) (2021-11-29T07:22:53Z) - Noise2Score: Tweedie's Approach to Self-Supervised Image Denoising
without Clean Images [35.41467558264341]
異なるアプローチを統合するために,ノイズ2スコアと呼ばれる新しい手法を提案する。
具体的には,後部分布のモードを見つけることで,クリーンな画像のない画像認識問題に対処できることを示す。
そこで本手法では,残差復調オートエンコーダを用いて雑音画像からスコア関数を安定に推定する手法を提案する。
論文 参考訳(メタデータ) (2021-06-13T14:41:09Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。