論文の概要: ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis
- arxiv url: http://arxiv.org/abs/2108.08827v1
- Date: Thu, 19 Aug 2021 17:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:28:31.835316
- Title: ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis
- Title(参考訳): ImageBART:自己回帰画像合成のための多項拡散を用いた双方向コンテキスト
- Authors: Patrick Esser and Robin Rombach and Andreas Blattmann and Bj\"orn
Ommer
- Abstract要約: 自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
- 参考スコア(独自算出の注目度): 15.006676130258372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models and their sequential factorization of the data
likelihood have recently demonstrated great potential for image representation
and synthesis. Nevertheless, they incorporate image context in a linear 1D
order by attending only to previously synthesized image patches above or to the
left. Not only is this unidirectional, sequential bias of attention unnatural
for images as it disregards large parts of a scene until synthesis is almost
complete. It also processes the entire image on a single scale, thus ignoring
more global contextual information up to the gist of the entire scene. As a
remedy we incorporate a coarse-to-fine hierarchy of context by combining the
autoregressive formulation with a multinomial diffusion process: Whereas a
multistage diffusion process successively removes information to coarsen an
image, we train a (short) Markov chain to invert this process. In each stage,
the resulting autoregressive ImageBART model progressively incorporates context
from previous stages in a coarse-to-fine manner. Experiments show greatly
improved image modification capabilities over autoregressive models while also
providing high-fidelity image generation, both of which are enabled through
efficient training in a compressed latent space. Specifically, our approach can
take unrestricted, user-provided masks into account to perform local image
editing. Thus, in contrast to pure autoregressive models, it can solve
free-form image inpainting and, in the case of conditional models, local,
text-guided image modification without requiring mask-specific training.
- Abstract(参考訳): 自己回帰モデルとそのデータ可能性の逐次分解は、画像表現と合成に大きな可能性を示している。
それにもかかわらず、画像コンテキストを線形1次元順に組み込むには、予め合成された画像パッチを上または左にのみ参加する。
この一方向の連続的な注意バイアスは、合成がほぼ完了するまでシーンの大部分を無視しているため、画像には不自然なものである。
また、画像全体を単一のスケールで処理することで、シーン全体のギストまで、よりグローバルなコンテキスト情報を無視します。
自己回帰的定式化と多項拡散過程を組み合わせることで、コンテキストの粗大な階層を組み込む: 多段階拡散過程は、画像を粗大にするために情報を逐次削除するが、この過程を逆転させるために(短い)マルコフ連鎖を訓練する。
各ステージにおいて、結果の自己回帰的ImageBARTモデルは、前のステージから粗い方法でコンテキストを段階的に組み込む。
実験により、自己回帰モデルよりも画像修正能力が大幅に向上し、圧縮された潜在空間での効率的なトレーニングにより高忠実度画像生成が可能となった。
具体的には,局所的な画像編集を行うために,制限のないユーザ提供マスクを考慮に入れることができる。
したがって、純粋な自己回帰モデルとは対照的に、自由形式のイメージペイントや、条件付きモデルの場合、マスク固有のトレーニングを必要とせずに、局所的なテキストガイド付きイメージ修正を解決できる。
関連論文リスト
- Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis [77.23998762763078]
画像合成のためのマルチスケール粗大な分極処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
我々は、テキスト・ツー・イメージ合成、レイアウト・ツー・イメージ、シーン・トゥ・イメージ、ラベル・ツー・イメージなど、様々な無条件・条件の画像生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-29T17:37:29Z) - Recurrent Affine Transformation for Text-to-image Synthesis [5.256132101498471]
既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
論文 参考訳(メタデータ) (2022-04-22T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。