論文の概要: High-Resolution Complex Scene Synthesis with Transformers
- arxiv url: http://arxiv.org/abs/2105.06458v1
- Date: Thu, 13 May 2021 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:56:23.063441
- Title: High-Resolution Complex Scene Synthesis with Transformers
- Title(参考訳): トランスを用いた高分解能複合シーン合成
- Authors: Manuel Jahn and Robin Rombach and Bj\"orn Ommer
- Abstract要約: 深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
- 参考スコア(独自算出の注目度): 6.445605125467574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of coarse-grained layouts for controllable synthesis of complex scene
images via deep generative models has recently gained popularity. However,
results of current approaches still fall short of their promise of
high-resolution synthesis. We hypothesize that this is mostly due to the highly
engineered nature of these approaches which often rely on auxiliary losses and
intermediate steps such as mask generators. In this note, we present an
orthogonal approach to this task, where the generative model is based on pure
likelihood training without additional objectives. To do so, we first optimize
a powerful compression model with adversarial training which learns to
reconstruct its inputs via a discrete latent bottleneck and thereby effectively
strips the latent representation of high-frequency details such as texture.
Subsequently, we train an autoregressive transformer model to learn the
distribution of the discrete image representations conditioned on a tokenized
version of the layouts. Our experiments show that the resulting system is able
to synthesize high-quality images consistent with the given layouts. In
particular, we improve the state-of-the-art FID score on COCO-Stuff and on
Visual Genome by up to 19% and 53% and demonstrate the synthesis of images up
to 512 x 512 px on COCO and Open Images.
- Abstract(参考訳): 複雑なシーン画像の深い生成モデルによる制御可能な合成に粗い粒度のレイアウトを用いることが近年人気を集めている。
しかし、現在のアプローチの結果は、高分解能合成の約束に届かない。
これは主に、補助的な損失やマスクジェネレータのような中間ステップに依存するこれらのアプローチの高度に設計された性質によるものであると仮定する。
本稿では,この課題に対する直交的アプローチについて述べる。
そこで我々はまず,個別の遅延ボトルネックによる入力の再構成を学習し,テクスチャなどの高周波の詳細の潜在表現を効果的に除去する強力な圧縮モデルを提案する。
その後、自己回帰トランスフォーマーモデルを訓練し、トークン化されたレイアウトで条件付けられた離散画像表現の分布を学習する。
提案手法は,与えられたレイアウトに整合した高品質画像を合成できることを示す。
特に,COCO-StuffおよびVisual Genomeの最先端FIDスコアを最大19%,53%向上させ,COCOおよびOpen Imagesの512×512pxまでの画像合成を実証した。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - BIGRoC: Boosting Image Generation via a Robust Classifier [27.66648389933265]
生成した画像の画質と分布の忠実度を改善するための一般的なモデルに依存しない手法を提案する。
BIGRoCと呼ばれるこの手法は、与えられたロバストな分類器の誘導による後処理手順に基づいている。
論文 参考訳(メタデータ) (2021-08-08T18:05:44Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。