論文の概要: High Fidelity Image Synthesis With Deep VAEs In Latent Space
- arxiv url: http://arxiv.org/abs/2303.13714v1
- Date: Thu, 23 Mar 2023 23:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:22:19.122775
- Title: High Fidelity Image Synthesis With Deep VAEs In Latent Space
- Title(参考訳): 深部VAEを用いた高忠実な画像合成
- Authors: Troy Luhman, Eric Luhman
- Abstract要約: 階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present fast, realistic image generation on high-resolution, multimodal
datasets using hierarchical variational autoencoders (VAEs) trained on a
deterministic autoencoder's latent space. In this two-stage setup, the
autoencoder compresses the image into its semantic features, which are then
modeled with a deep VAE. With this method, the VAE avoids modeling the
fine-grained details that constitute the majority of the image's code length,
allowing it to focus on learning its structural components. We demonstrate the
effectiveness of our two-stage approach, achieving a FID of 9.34 on the
ImageNet-256 dataset which is comparable to BigGAN. We make our implementation
available online.
- Abstract(参考訳): 決定論的オートエンコーダの潜時空間をトレーニングした階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダはイメージをそのセマンティックな特徴に圧縮し、深いvaeでモデル化する。
この方法では、vaeは、画像のコード長の大部分を構成する細かな詳細をモデル化することを避け、構造的なコンポーネントの学習に集中できる。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
実装をオンラインで公開しています。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement [8.16306466526838]
海面監視のための無人水中画像解析は、画質低下とハードウェアストレージ制約という2つの大きな課題に直面している。
本稿では,劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を紹介する。
CE-VAEは6つのベンチマークデータセットの水中画像強化において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-03T13:04:42Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Soft-IntroVAE for Continuous Latent space Image Super-Resolution [12.344557879284219]
連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。
変分オートエンコーダにインスパイアされた連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。
論文 参考訳(メタデータ) (2023-07-18T06:54:42Z) - A Model-data-driven Network Embedding Multidimensional Features for
Tomographic SAR Imaging [5.489791364472879]
多次元特徴量に基づくトモSARイメージングを実現するためのモデルデータ駆動型ネットワークを提案する。
画像シーンの多次元的特徴を効果的に向上するために、2つの2次元処理モジュール(畳み込みエンコーダ-デコーダ構造)を追加します。
従来のCS-based FISTA法とDL-based gamma-Net法と比較して,提案手法は良好な画像精度を有しつつ,完全性を向上させる。
論文 参考訳(メタデータ) (2022-11-28T02:01:43Z) - Wider and Higher: Intensive Integration and Global Foreground Perception
for Image Matting [44.51635913732913]
本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。
画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。
Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
論文 参考訳(メタデータ) (2022-10-13T11:34:46Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。