論文の概要: Sample what you cant compress
- arxiv url: http://arxiv.org/abs/2409.02529v1
- Date: Wed, 4 Sep 2024 08:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:30:37.232466
- Title: Sample what you cant compress
- Title(参考訳): 圧縮できないものをサンプルする
- Authors: Vighnesh Birodkar, Gabriel Barcik, James Lyon, Sergey Ioffe, David Minnen, Joshua V. Dillon,
- Abstract要約: 拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。
このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
- 参考スコア(独自算出の注目度): 6.24979299238534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate the efficacy of jointly learning a continuous encoder and decoder under a diffusion-based loss. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach "Sample what you can't compress", or SWYCC for short.
- Abstract(参考訳): 学習画像表現では、基本オートエンコーダはしばしばぼやけた結果を生成する。
逆境(GAN)や知覚的損失などの追加の罰則を取り入れることで、再建の質を向上させることができる。
これらのアプローチには原則的な解釈が欠如している。
同時に、生成的セッティングの拡散は、鮮明で高品質な結果を生み出す顕著な能力を示し、(変分推論からフィッシャーダイバージェンスとして直接研究まで)しっかりとした理論的基盤を持っている。
我々の研究は、自己エンコーダ表現学習と拡散を組み合わせ、拡散に基づく損失の下で連続エンコーダとデコーダを共同で学習する効果を初めて示すものである。
提案手法は,GANベースのオートエンコーダに比べてチューニングが容易でありながら,再構築品質が向上することを示す。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
我々のデコーダは確率的であるため、そうでない決定論的潜在表現にエンコードされていない詳細を生成することができる。
関連論文リスト
- Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - A Residual Diffusion Model for High Perceptual Quality Codec
Augmentation [1.868930790098705]
拡散確率モデルは最近、高品質の画像とビデオデータの生成において顕著な成功を収めている。
本研究では,この生成モデルに基づいて,高解像度画像の損失圧縮手法を提案する。
拡散確率モデルからのサンプリングは高額であることが知られているが, 圧縮設定では, ステップ数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2023-01-13T11:27:26Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。