論文の概要: How to Construct Energy for Images? Denoising Autoencoder Can Be Energy
Based Model
- arxiv url: http://arxiv.org/abs/2303.03887v1
- Date: Sun, 5 Mar 2023 05:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:22:58.908940
- Title: How to Construct Energy for Images? Denoising Autoencoder Can Be Energy
Based Model
- Title(参考訳): 画像のエネルギーの作り方?
デノージングオートエンコーダはエネルギーベースモデルになり得る
- Authors: Weili Zeng
- Abstract要約: Denoising-EBMは画像エネルギーを「セマンティックエナジー」と「テクスチュアエナジー」に分解する
スコアベースモデルにインスパイアされた本モデルでは,マルチスケールノイズサンプルを用いて最大音量トレーニングを行う。
- 参考スコア(独自算出の注目度): 3.6260136172126667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Energy-based models parameterize the unnormalized log-probability of data
samples, but there is a lack of guidance on how to construct the "energy". In
this paper, we propose a Denoising-EBM which decomposes the image energy into
"semantic energy" and "texture energy". We define the "semantic energy" in the
latent space of DAE to model the high-level representations, and define the
pixel-level reconstruction error for denoising as "texture energy". Inspired by
score-based model, our model utilizes multi-scale noisy samples for
maximum-likelihood training and it outputs a vector instead of a scalar for
exploring a larger set of functions during optimization. After training, the
semantics are first synthesized by fast MCMC through "semantic energy", and
then the pixel-level refinement of semantic image will be performed to generate
perfect samples based on "texture energy". Ultimately, our model can outperform
most EBMs in image generation. And we also demonstrate that Denoising-EBM has
top performance among EBMs for out-of-distribution detection.
- Abstract(参考訳): エネルギーベースのモデルはデータサンプルの非正規化ログ確率をパラメータ化するが、「エネルギー」を構築するためのガイダンスが欠如している。
本稿では,画像エネルギーを「セマンティックエネルギー」と「テクスチャエネルギー」に分解するDenoising-EBMを提案する。
我々は高レベル表現をモデル化するためにdaeの潜在空間における「意味エネルギー」を定義し、雑音化のためのピクセルレベルの再構成誤差を「テクチュアエネルギー」として定義する。
スコアベースモデルにインスパイアされた本モデルでは,最大音量トレーニングにマルチスケールノイズサンプルを用い,スカラーの代わりにベクトルを出力し,最適化時により大きな関数集合を探索する。
トレーニング後、セマンティクスは「セマンティクスエネルギー」を介して高速MCMCによって最初に合成され、続いてセマンティクス画像のピクセルレベルの精細化を行い、「テクスチャエネルギー」に基づいて完璧なサンプルを生成する。
最終的に、私たちのモデルは画像生成においてほとんどのEMMより優れている。
また,Denoising-EBMは分布外検出のためのESMの中で最も優れた性能を示す。
関連論文リスト
- Variational Potential Flow: A Novel Probabilistic Framework for Energy-Based Generative Modelling [10.926841288976684]
エネルギーをベースとした新しい生成フレームワークVAPOについて述べる。
VAPOは、勾配(流れ)が前のサンプルを導くポテンシャルエネルギー関数を学習することを目的としており、その密度の進化は近似的なデータ準同相性に従う。
イメージはポテンシャルエネルギーをトレーニングした後、ガウスのサンプルを初期化し、固定時間間隔で電位フローを管理するODEを解くことで生成することができる。
論文 参考訳(メタデータ) (2024-07-21T18:08:12Z) - vHeat: Building Vision Models upon Heat Conduction [63.00030330898876]
vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
論文 参考訳(メタデータ) (2024-05-26T12:58:04Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Empowering Low-Light Image Enhancer through Customized Learnable Priors [40.83461757842304]
そこで本稿では,学習先をカスタマイズする可能性を探る,低照度画像強調のためのパラダイムを提案する。
Masked Autoencoder(MAE)の強力な特徴表現機能によって、我々はMAEベースの照明とノイズ先行をカスタマイズする。
論文 参考訳(メタデータ) (2023-09-05T05:20:11Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Energy-Inspired Self-Supervised Pretraining for Vision Models [36.70550531181131]
エネルギーベースモデル(EBM)にインスパイアされた自己教師型ビジョンモデル事前学習フレームワークを導入する。
提案手法では,1つのネットワークの前方・後方通過としてエネルギー推定とデータ復元をモデル化する。
提案手法は,学習のエポックを極端に少なくして,同等で,さらに優れた性能を提供できることを示す。
論文 参考訳(メタデータ) (2023-02-02T19:41:00Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。