論文の概要: Binary Latent Diffusion
- arxiv url: http://arxiv.org/abs/2304.04820v1
- Date: Mon, 10 Apr 2023 19:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:04:43.785461
- Title: Binary Latent Diffusion
- Title(参考訳): 二元潜在拡散
- Authors: Ze Wang, Jiang Wang, Zicheng Liu, and Qiang Qiu
- Abstract要約: コンパクトで表現力のある画像表現に対して二進ラテント空間を探索できることが示される。
複数のデータセットを用いて条件付きおよび条件なしの画像生成実験を行う。
提案するフレームワークは,遅延階層や多段改良を使わずに,シームレスに1024×1024$の高解像度画像生成に拡張することができる。
- 参考スコア(独自算出の注目度): 36.70550531181131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that a binary latent space can be explored for compact
yet expressive image representations. We model the bi-directional mappings
between an image and the corresponding latent binary representation by training
an auto-encoder with a Bernoulli encoding distribution. On the one hand, the
binary latent space provides a compact discrete image representation of which
the distribution can be modeled more efficiently than pixels or continuous
latent representations. On the other hand, we now represent each image patch as
a binary vector instead of an index of a learned cookbook as in discrete image
representations with vector quantization. In this way, we obtain binary latent
representations that allow for better image quality and high-resolution image
representations without any multi-stage hierarchy in the latent space. In this
binary latent space, images can now be generated effectively using a binary
latent diffusion model tailored specifically for modeling the prior over the
binary image representations. We present both conditional and unconditional
image generation experiments with multiple datasets, and show that the proposed
method performs comparably to state-of-the-art methods while dramatically
improving the sampling efficiency to as few as 16 steps without using any
test-time acceleration. The proposed framework can also be seamlessly scaled to
$1024 \times 1024$ high-resolution image generation without resorting to latent
hierarchy or multi-stage refinements.
- Abstract(参考訳): 本稿では,コンパクトかつ表現力に富む画像表現のために,バイナリ潜在空間を探索できることを示す。
我々は,Bernolli符号化分布を用いた自動エンコーダのトレーニングにより,画像と対応する潜在バイナリ表現の双方向マッピングをモデル化する。
一方、二項潜在性空間は、分布が画素や連続的潜在性表現よりも効率的にモデル化できるコンパクトな離散画像表現を提供する。
一方,各画像パッチを,ベクトル量子化を伴う離散画像表現のように学習したクックブックのインデックスではなく,バイナリベクトルとして表現した。
このようにして、ラテント空間の多段階階層を伴わずに、画質と高解像度の画像表現を向上できるバイナリラテント表現を得る。
このバイナリラテント空間では、バイナリ画像表現をモデリングするために特別に設計されたバイナリラテント拡散モデルを用いて、画像を効果的に生成することができる。
本研究では,複数のデータセットを用いた条件付き画像生成実験と非条件付き画像生成実験の両方を提示し,提案手法が最先端の手法と同等に動作し,試験時間加速度を使わずにサンプリング効率を最大16ステップまで劇的に向上させることを示した。
提案するフレームワークは、遅延階層やマルチステージ精細化に頼ることなく、シームレスに1024 \times 1024$高解像度画像生成にスケールすることもできる。
関連論文リスト
- Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z) - Joint Estimation of Image Representations and their Lie Invariants [57.3768308075675]
画像は世界の状態とコンテンツの両方をエンコードする。
この情報の自動抽出は、画像表現に固有の高次元かつ絡み合った符号化のために困難である。
本稿では,これらの課題の解決を目的とした2つの理論的アプローチを紹介する。
論文 参考訳(メタデータ) (2020-12-05T00:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。