Fugu-MT 論文翻訳(概要): High Fidelity Image Synthesis With Deep VAEs In Latent Space

論文の概要: High Fidelity Image Synthesis With Deep VAEs In Latent Space

arxiv url: http://arxiv.org/abs/2303.13714v1
Date: Thu, 23 Mar 2023 23:45:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 16:22:19.122775
Title: High Fidelity Image Synthesis With Deep VAEs In Latent Space
Title（参考訳）: 深部VAEを用いた高忠実な画像合成
Authors: Troy Luhman, Eric Luhman
Abstract要約: 階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present fast, realistic image generation on high-resolution, multimodal datasets using hierarchical variational autoencoders (VAEs) trained on a deterministic autoencoder's latent space. In this two-stage setup, the autoencoder compresses the image into its semantic features, which are then modeled with a deep VAE. With this method, the VAE avoids modeling the fine-grained details that constitute the majority of the image's code length, allowing it to focus on learning its structural components. We demonstrate the effectiveness of our two-stage approach, achieving a FID of 9.34 on the ImageNet-256 dataset which is comparable to BigGAN. We make our implementation available online.
Abstract（参考訳）: 決定論的オートエンコーダの潜時空間をトレーニングした階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。この2段階のセットアップでは、オートエンコーダはイメージをそのセマンティックな特徴に圧縮し、深いvaeでモデル化する。この方法では、vaeは、画像のコード長の大部分を構成する細かな詳細をモデル化することを避け、構造的なコンポーネントの学習に集中できる。我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。実装をオンラインで公開しています。

関連論文リスト

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文参考訳（メタデータ） (2024-11-21T18:31:25Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement [8.16306466526838]
海面監視のための無人水中画像解析は、画質低下とハードウェアストレージ制約という2つの大きな課題に直面している。本稿では,劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を紹介する。 CE-VAEは6つのベンチマークデータセットの水中画像強化において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-03T13:04:42Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
Soft-IntroVAE for Continuous Latent space Image Super-Resolution [12.344557879284219]
連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。変分オートエンコーダにインスパイアされた連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。
論文参考訳（メタデータ） (2023-07-18T06:54:42Z)
A Model-data-driven Network Embedding Multidimensional Features for Tomographic SAR Imaging [5.489791364472879]
多次元特徴量に基づくトモSARイメージングを実現するためのモデルデータ駆動型ネットワークを提案する。画像シーンの多次元的特徴を効果的に向上するために、2つの2次元処理モジュール(畳み込みエンコーダ-デコーダ構造)を追加します。従来のCS-based FISTA法とDL-based gamma-Net法と比較して,提案手法は良好な画像精度を有しつつ,完全性を向上させる。
論文参考訳（メタデータ） (2022-11-28T02:01:43Z)
Wider and Higher: Intensive Integration and Global Foreground Perception for Image Matting [44.51635913732913]
本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。 Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
論文参考訳（メタデータ） (2022-10-13T11:34:46Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文参考訳（メタデータ） (2021-03-16T07:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。