論文の概要: AccDiffusion v2: Towards More Accurate Higher-Resolution Diffusion Extrapolation
- arxiv url: http://arxiv.org/abs/2412.02099v1
- Date: Tue, 03 Dec 2024 02:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:46.968797
- Title: AccDiffusion v2: Towards More Accurate Higher-Resolution Diffusion Extrapolation
- Title(参考訳): AccDiffusion v2:より正確な高分解能拡散外挿を目指して
- Authors: Zhihang Lin, Mingbao Lin, Wengyi Zhan, Rongrong Ji,
- Abstract要約: 拡散モデルは、予測分解能が事前訓練された分解能と異なる場合、厳しい物体反復と局所歪みに悩まされる。
本稿では,AccDiffusion v2を提案する。
- 参考スコア(独自算出の注目度): 59.91176945361035
- License:
- Abstract: Diffusion models suffer severe object repetition and local distortion when the inference resolution differs from its pre-trained resolution. We propose AccDiffusion v2, an accurate method for patch-wise higher-resolution diffusion extrapolation without training. Our in-depth analysis in this paper shows that using an identical text prompt for different patches leads to repetitive generation, while the absence of a prompt undermines image details. In response, our AccDiffusion v2 novelly decouples the vanilla image-content-aware prompt into a set of patch-content-aware prompts, each of which serves as a more precise description of a patch. Further analysis reveals that local distortion arises from inaccurate descriptions in prompts about the local structure of higher-resolution images. To address this issue, AccDiffusion v2, for the first time, introduces an auxiliary local structural information through ControlNet during higher-resolution diffusion extrapolation aiming to mitigate the local distortions. Finally, our analysis indicates that global semantic information is conducive to suppressing both repetitive generation and local distortion. Hence, our AccDiffusion v2 further proposes dilated sampling with window interaction for better global semantic information during higher-resolution diffusion extrapolation. We conduct extensive experiments, including both quantitative and qualitative comparisons, to demonstrate the efficacy of our AccDiffusion v2. The quantitative comparison shows that AccDiffusion v2 achieves state-of-the-art performance in image generation extrapolation without training. The qualitative comparison intuitively illustrates that AccDiffusion v2 effectively suppresses the issues of repetitive generation and local distortion in image generation extrapolation. Our code is available at \url{https://github.com/lzhxmu/AccDiffusion_v2}.
- Abstract(参考訳): 拡散モデルは、予測分解能が事前訓練された分解能と異なる場合、厳しい物体反復と局所歪みに悩まされる。
本稿では,AccDiffusion v2を提案する。
本稿では,異なるパッチに対して同一のテキストプロンプトを使用すると,プロンプトの欠如が画像の詳細を損なう一方で,繰り返し生成が生じることを示す。
これに対し、当社のAccDiffusion v2は、バニラ画像コンテンツ認識プロンプトをパッチコンテンツ認識プロンプトのセットに新規に分離し、それぞれがパッチのより正確な記述として機能する。
さらに解析したところ、高解像度画像の局所構造に関するプロンプトにおいて、局所歪みが不正確な記述から生じることが明らかとなった。
この問題に対処するため、AccDiffusion v2は、局所歪みの緩和を目的とした高分解能拡散補間において、制御ネットを介して補助的な局所構造情報を導入する。
最後に,グローバルな意味情報は,反復生成と局所歪みの両面を抑えることが示唆された。
そこで,我々のAccDiffusion v2は,高分解能拡散外挿時の大域的意味情報を改善するために,ウィンドウ相互作用を用いた拡張サンプリングを提案する。
AccDiffusion v2の有効性を示すために、定量比較と定性比較の両方を含む広範な実験を行った。
定量的比較により,AccDiffusion v2はトレーニング無しに画像生成外挿における最先端性能を実現することが示された。
定性的比較は、AccDiffusion v2が画像生成外挿における繰り返し生成と局所歪みの問題を効果的に抑制していることを示す。
我々のコードは \url{https://github.com/lzhxmu/AccDiffusion_v2} で利用可能です。
関連論文リスト
- AccDiffusion: An Accurate Method for Higher-Resolution Image Generation [63.53163540340026]
AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。
本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。
私たちのAccDiffusionは、初めて、バニラ画像認識プロンプトをパッチコンテンツ認識プロンプトのセットに分離することを提案しています。
論文 参考訳(メタデータ) (2024-07-15T14:06:29Z) - Diffusion-based Image Generation for In-distribution Data Augmentation in Surface Defect Detection [8.93281936150572]
産業シナリオにおいて拡散モデルを用いてデータ拡張の手順を改善することができることを示す。
そこで本研究では,アウト・オブ・ディストリビューションとイン・ディストリビューション・サンプルを混合したデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-01T17:09:18Z) - Diffusion Bridge AutoEncoders for Unsupervised Representation Learning [10.74555302283403]
Diffusion Bridge AuteEncoders (DBAE)を導入し、フィードフォワードアーキテクチャを通じてz依存のエンドポイントxT推論を可能にする。
そこで本稿では,DBAEの再構築と生成モデリングを両立させる目的関数を提案し,その理論的正当性について述べる。
論文 参考訳(メタデータ) (2024-05-27T12:28:17Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Diffusion-GAN: Training GANs with Diffusion [135.24433011977874]
GAN(Generative Adversarial Network)は、安定してトレーニングすることが難しい。
フォワード拡散チェーンを利用してインスタンスノイズを生成する新しいGANフレームワークであるDiffusion-GANを提案する。
我々は,Diffusion-GANにより,最先端のGANよりも高い安定性とデータ効率で,よりリアルな画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-06-05T20:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。