論文の概要: Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models
- arxiv url: http://arxiv.org/abs/2212.12990v1
- Date: Mon, 26 Dec 2022 02:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:39:22.088664
- Title: Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models
- Title(参考訳): 事前学習拡散確率モデルによる教師なし表現学習
- Authors: Zijian Zhang, Zhou Zhao, Zhijie Lin
- Abstract要約: 拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
- 参考スコア(独自算出の注目度): 83.75414370493289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Probabilistic Models (DPMs) have shown a powerful capacity of
generating high-quality image samples. Recently, diffusion autoencoders
(Diff-AE) have been proposed to explore DPMs for representation learning via
autoencoding. Their key idea is to jointly train an encoder for discovering
meaningful representations from images and a conditional DPM as the decoder for
reconstructing images. Considering that training DPMs from scratch will take a
long time and there have existed numerous pre-trained DPMs, we propose
\textbf{P}re-trained \textbf{D}PM \textbf{A}uto\textbf{E}ncoding
(\textbf{PDAE}), a general method to adapt existing pre-trained DPMs to the
decoders for image reconstruction, with better training efficiency and
performance than Diff-AE. Specifically, we find that the reason that
pre-trained DPMs fail to reconstruct an image from its latent variables is due
to the information loss of forward process, which causes a gap between their
predicted posterior mean and the true one. From this perspective, the
classifier-guided sampling method can be explained as computing an extra mean
shift to fill the gap, reconstructing the lost class information in samples.
These imply that the gap corresponds to the lost information of the image, and
we can reconstruct the image by filling the gap. Drawing inspiration from this,
we employ a trainable model to predict a mean shift according to encoded
representation and train it to fill as much gap as possible, in this way, the
encoder is forced to learn as much information as possible from images to help
the filling. By reusing a part of network of pre-trained DPMs and redesigning
the weighting scheme of diffusion loss, PDAE can learn meaningful
representations from images efficiently. Extensive experiments demonstrate the
effectiveness, efficiency and flexibility of PDAE.
- Abstract(参考訳): 拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
近年,拡散オートエンコーダ (Diff-AE) が提案されている。
彼らのキーとなるアイデアは、画像から意味のある表現を発見するエンコーダと、画像再構築のためのデコーダとして条件付きDPMを共同で訓練することである。
画像再構成のためのデコーダに既存の事前学習済みDPMを適応させる一般的な手法である \textbf{P}re-trained \textbf{D}PM \textbf{A}uto\textbf{E}ncoding (\textbf{PDAE})を提案する。
具体的には,事前学習したdpmが潜在変数から画像の再構成に失敗した理由は,予測された後方平均と実際の画像とのギャップを生じさせるフォワードプロセスの情報損失によるものである。
この観点から、分類器誘導サンプリング法は、余分な平均シフトを計算してギャップを埋め、失われたクラス情報をサンプルに再構成するものとして説明できる。
これらのことから、ギャップは画像の失われた情報に対応しており、ギャップを埋めて画像を再構築することができる。
そこからインスピレーションを得て、エンコードされた表現に従って平均シフトを予測し、できるだけ多くのギャップを埋めるように訓練する訓練可能なモデルを用いて、エンコーダは、画像からできるだけ多くの情報を学習し、その埋め合わせを支援する。
事前訓練されたDPMのネットワークの一部を再利用し、拡散損失の重み付け方式を再設計することにより、PDAEは画像から意味のある表現を効率的に学習することができる。
PDAEの有効性、効率、柔軟性を示す大規模な実験。
関連論文リスト
- NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement [4.841365627573421]
文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。
劣化文書の原品質を復元する拡散確率モデル(DPM)に基づく新しい生成フレームワークであるNAF-DPMを提案する。
論文 参考訳(メタデータ) (2024-04-08T16:52:21Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z) - DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors
for Change Detection [31.125812018296127]
Deno Diffusion Probabilistic Model (DDPM) の事前学習による変化検出のための新しいアプローチを提案する。
DDPMは、訓練画像を徐々にマルコフ連鎖を用いてガウス分布に変換することにより、トレーニングデータ分布を学習する。
推論(サンプリング)中に、トレーニング分布に近い多様なサンプルセットを生成することができる。
LEVIR-CD, WHU-CD, DSIFN-CD, CDDデータセットを用いて行った実験により,提案手法は既存の変化検出法よりもF1スコアで大幅に優れており, I。
論文 参考訳(メタデータ) (2022-06-23T17:58:29Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。