論文の概要: ElasticDiffusion: Training-free Arbitrary Size Image Generation
- arxiv url: http://arxiv.org/abs/2311.18822v1
- Date: Thu, 30 Nov 2023 18:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:13:17.628857
- Title: ElasticDiffusion: Training-free Arbitrary Size Image Generation
- Title(参考訳): ElasticDiffusion: トレーニング不要な任意サイズ画像生成
- Authors: Moayed Haji-Ali, Guha Balakrishnan, Vicente Ordonez
- Abstract要約: ElasticDiffusionは、事前訓練されたテキストと画像の拡散モデルが様々なサイズで画像を生成することができる、トレーニング不要のデコード手法である。
実験と定性的な結果から,マルチディフュージョンと安定ディフュージョンの標準デコード戦略と比較して,アスペクト比における画像コヒーレンス品質が優れていた。
- 参考スコア(独自算出の注目度): 16.923002028395985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have revolutionized image generation in recent years, yet
they are still limited to a few sizes and aspect ratios. We propose
ElasticDiffusion, a novel training-free decoding method that enables pretrained
text-to-image diffusion models to generate images with various sizes.
ElasticDiffusion attempts to decouple the generation trajectory of a pretrained
model into local and global signals. The local signal controls low-level pixel
information and can be estimated on local patches, while the global signal is
used to maintain overall structural consistency and is estimated with a
reference image. We test our method on CelebA-HQ (faces) and LAION-COCO
(objects/indoor/outdoor scenes). Our experiments and qualitative results show
superior image coherence quality across aspect ratios compared to
MultiDiffusion and the standard decoding strategy of Stable Diffusion. Code:
https://github.com/MoayedHajiAli/ElasticDiffusion-official.git
- Abstract(参考訳): 近年、拡散モデルは画像生成に革命をもたらしたが、それでもいくつかのサイズとアスペクト比に制限されている。
本稿では,事前訓練されたテキスト-画像拡散モデルを用いて,様々なサイズの画像を生成する,新しいトレーニング不要なデコーディング手法であるElasticDiffusionを提案する。
elasticdiffusionは、事前訓練されたモデルの生成軌跡をローカル信号とグローバル信号に分離しようとする。
局所信号は低レベル画素情報を制御し、局所パッチで推定できるが、グローバル信号は全体の構造的一貫性を維持するために使用され、参照画像で推定される。
CelebA-HQ (faces) とLAION-COCO (objects/indoor/outdoor scene) でテストを行った。
実験と定性的な結果から,多重拡散および安定拡散の標準復号法と比較して,アスペクト比で優れた画像コヒーレンス品質を示す。
コード: https://github.com/moayedhajiali/elasticdiffusion-official.git
関連論文リスト
- Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-08T13:26:32Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion [45.06392070934473]
PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。
本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。
Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
論文 参考訳(メタデータ) (2023-12-27T09:21:45Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - GECCO: Geometrically-Conditioned Point Diffusion Models [60.28388617034254]
テキスト上で条件付き画像を生成する拡散モデルが最近,コンピュータビジョンコミュニティをはるかに超えている。
ここでは、無条件および条件付きの両方の点雲を画像で生成するという、関連する問題に取り組む。
後者では,スパーク画像の特徴を点雲に投影することに基づく,幾何学的動機付けによる新しい条件付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T13:45:44Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。