論文の概要: ElasticDiffusion: Training-free Arbitrary Size Image Generation
- arxiv url: http://arxiv.org/abs/2311.18822v1
- Date: Thu, 30 Nov 2023 18:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:13:17.628857
- Title: ElasticDiffusion: Training-free Arbitrary Size Image Generation
- Title(参考訳): ElasticDiffusion: トレーニング不要な任意サイズ画像生成
- Authors: Moayed Haji-Ali, Guha Balakrishnan, Vicente Ordonez
- Abstract要約: ElasticDiffusionは、事前訓練されたテキストと画像の拡散モデルが様々なサイズで画像を生成することができる、トレーニング不要のデコード手法である。
実験と定性的な結果から,マルチディフュージョンと安定ディフュージョンの標準デコード戦略と比較して,アスペクト比における画像コヒーレンス品質が優れていた。
- 参考スコア(独自算出の注目度): 16.923002028395985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have revolutionized image generation in recent years, yet
they are still limited to a few sizes and aspect ratios. We propose
ElasticDiffusion, a novel training-free decoding method that enables pretrained
text-to-image diffusion models to generate images with various sizes.
ElasticDiffusion attempts to decouple the generation trajectory of a pretrained
model into local and global signals. The local signal controls low-level pixel
information and can be estimated on local patches, while the global signal is
used to maintain overall structural consistency and is estimated with a
reference image. We test our method on CelebA-HQ (faces) and LAION-COCO
(objects/indoor/outdoor scenes). Our experiments and qualitative results show
superior image coherence quality across aspect ratios compared to
MultiDiffusion and the standard decoding strategy of Stable Diffusion. Code:
https://github.com/MoayedHajiAli/ElasticDiffusion-official.git
- Abstract(参考訳): 近年、拡散モデルは画像生成に革命をもたらしたが、それでもいくつかのサイズとアスペクト比に制限されている。
本稿では,事前訓練されたテキスト-画像拡散モデルを用いて,様々なサイズの画像を生成する,新しいトレーニング不要なデコーディング手法であるElasticDiffusionを提案する。
elasticdiffusionは、事前訓練されたモデルの生成軌跡をローカル信号とグローバル信号に分離しようとする。
局所信号は低レベル画素情報を制御し、局所パッチで推定できるが、グローバル信号は全体の構造的一貫性を維持するために使用され、参照画像で推定される。
CelebA-HQ (faces) とLAION-COCO (objects/indoor/outdoor scene) でテストを行った。
実験と定性的な結果から,多重拡散および安定拡散の標準復号法と比較して,アスペクト比で優れた画像コヒーレンス品質を示す。
コード: https://github.com/moayedhajiali/elasticdiffusion-official.git
関連論文リスト
- Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - GECCO: Geometrically-Conditioned Point Diffusion Models [60.28388617034254]
テキスト上で条件付き画像を生成する拡散モデルが最近,コンピュータビジョンコミュニティをはるかに超えている。
ここでは、無条件および条件付きの両方の点雲を画像で生成するという、関連する問題に取り組む。
後者では,スパーク画像の特徴を点雲に投影することに基づく,幾何学的動機付けによる新しい条件付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T13:45:44Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。