論文の概要: Binary Latent Diffusion
- arxiv url: http://arxiv.org/abs/2304.04820v1
- Date: Mon, 10 Apr 2023 19:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:04:43.785461
- Title: Binary Latent Diffusion
- Title(参考訳): 二元潜在拡散
- Authors: Ze Wang, Jiang Wang, Zicheng Liu, and Qiang Qiu
- Abstract要約: コンパクトで表現力のある画像表現に対して二進ラテント空間を探索できることが示される。
複数のデータセットを用いて条件付きおよび条件なしの画像生成実験を行う。
提案するフレームワークは,遅延階層や多段改良を使わずに,シームレスに1024×1024$の高解像度画像生成に拡張することができる。
- 参考スコア(独自算出の注目度): 36.70550531181131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that a binary latent space can be explored for compact
yet expressive image representations. We model the bi-directional mappings
between an image and the corresponding latent binary representation by training
an auto-encoder with a Bernoulli encoding distribution. On the one hand, the
binary latent space provides a compact discrete image representation of which
the distribution can be modeled more efficiently than pixels or continuous
latent representations. On the other hand, we now represent each image patch as
a binary vector instead of an index of a learned cookbook as in discrete image
representations with vector quantization. In this way, we obtain binary latent
representations that allow for better image quality and high-resolution image
representations without any multi-stage hierarchy in the latent space. In this
binary latent space, images can now be generated effectively using a binary
latent diffusion model tailored specifically for modeling the prior over the
binary image representations. We present both conditional and unconditional
image generation experiments with multiple datasets, and show that the proposed
method performs comparably to state-of-the-art methods while dramatically
improving the sampling efficiency to as few as 16 steps without using any
test-time acceleration. The proposed framework can also be seamlessly scaled to
$1024 \times 1024$ high-resolution image generation without resorting to latent
hierarchy or multi-stage refinements.
- Abstract(参考訳): 本稿では,コンパクトかつ表現力に富む画像表現のために,バイナリ潜在空間を探索できることを示す。
我々は,Bernolli符号化分布を用いた自動エンコーダのトレーニングにより,画像と対応する潜在バイナリ表現の双方向マッピングをモデル化する。
一方、二項潜在性空間は、分布が画素や連続的潜在性表現よりも効率的にモデル化できるコンパクトな離散画像表現を提供する。
一方,各画像パッチを,ベクトル量子化を伴う離散画像表現のように学習したクックブックのインデックスではなく,バイナリベクトルとして表現した。
このようにして、ラテント空間の多段階階層を伴わずに、画質と高解像度の画像表現を向上できるバイナリラテント表現を得る。
このバイナリラテント空間では、バイナリ画像表現をモデリングするために特別に設計されたバイナリラテント拡散モデルを用いて、画像を効果的に生成することができる。
本研究では,複数のデータセットを用いた条件付き画像生成実験と非条件付き画像生成実験の両方を提示し,提案手法が最先端の手法と同等に動作し,試験時間加速度を使わずにサンプリング効率を最大16ステップまで劇的に向上させることを示した。
提案するフレームワークは、遅延階層やマルチステージ精細化に頼ることなく、シームレスに1024 \times 1024$高解像度画像生成にスケールすることもできる。
関連論文リスト
- bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction [57.199618102578576]
疎二分量時間画像データから高画質の画像スタックを元の解像度で再構成する新しい方法であるbit2bitを提案する。
Poisson denoisingの最近の研究に触発されて、スパースバイナリ光子データから高密度な画像列を生成するアルゴリズムを開発した。
本研究では,様々な課題の画像条件下でのSPADの高速映像を多種多種に含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:30:35Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。