論文の概要: Revisiting Diffusion Autoencoder Training for Image Reconstruction Quality
- arxiv url: http://arxiv.org/abs/2504.21368v1
- Date: Wed, 30 Apr 2025 07:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:08:13.836203
- Title: Revisiting Diffusion Autoencoder Training for Image Reconstruction Quality
- Title(参考訳): 画像再構成品質のための拡散オートエンコーダ教育の見直し
- Authors: Pramook Khungurn, Sukit Seripanitkarn, Phonphrm Thawatdamrongkit, Supasorn Suwajanakorn,
- Abstract要約: 拡散オートエンコーダ(DAE)は通常、ノイズ予測モデルとして定式化され、線形$$beta$ノイズスケジュールで訓練される。
そこで本研究では,再構成画像の品質を向上する新たなDAEトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 8.338327580222957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion autoencoders (DAEs) are typically formulated as a noise prediction model and trained with a linear-$\beta$ noise schedule that spends much of its sampling steps at high noise levels. Because high noise levels are associated with recovering large-scale image structures and low noise levels with recovering details, this configuration can result in low-quality and blurry images. However, it should be possible to improve details while spending fewer steps recovering structures because the latent code should already contain structural information. Based on this insight, we propose a new DAE training method that improves the quality of reconstructed images. We divide training into two phases. In the first phase, the DAE is trained as a vanilla autoencoder by always setting the noise level to the highest, forcing the encoder and decoder to populate the latent code with structural information. In the second phase, we incorporate a noise schedule that spends more time in the low-noise region, allowing the DAE to learn how to perfect the details. Our method results in images that have accurate high-level structures and low-level details while still preserving useful properties of the latent codes.
- Abstract(参考訳): 拡散オートエンコーダ(DAE)は通常、ノイズ予測モデルとして定式化され、高雑音レベルにおけるサンプリングステップの多くを消費する線形$\beta$ノイズスケジュールで訓練される。
高ノイズレベルは、大規模な画像構造と低ノイズレベルの回復に関連付けられており、この構成は、低品質でぼやけた画像をもたらす可能性がある。
しかし、潜在コードは既に構造情報を含むべきなので、構造を回復するステップを減らしながら詳細を改善することが可能である。
そこで本研究では,再構成画像の品質を向上する新たなDAEトレーニング手法を提案する。
私たちはトレーニングを2つのフェーズに分けます。
第1段階では、DAEは、常にノイズレベルを最高に設定することでバニラオートエンコーダとして訓練され、エンコーダとデコーダは、遅延コードを構造情報でポップアップさせる。
第2フェーズでは、低ノイズ領域でより多くの時間を過ごすノイズスケジュールを組み込むことで、DAEが詳細を完璧にする方法を学ぶことができる。
提案手法は, 精度の高い高次構造と低次細部を有する画像に対して, 潜時符号の有用な特性を保ったまま保存する。
関連論文リスト
- Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - CurvPnP: Plug-and-play Blind Image Restoration with Deep Curvature
Denoiser [7.442030347967277]
既存のプラグアンドプレイ画像復元法は、非盲検に設計されている。
本稿では,より複雑な画像復元問題に対処できる,視覚障害者のための新しい枠組みを提案する。
本モデルでは,ノイズレベルが異なる場合でも,微細な構造を再現できることが示されている。
論文 参考訳(メタデータ) (2022-11-14T11:30:24Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Fidelity Estimation Improves Noisy-Image Classification with Pretrained
Networks [12.814135905559992]
本稿では,事前学習した分類器に適用可能な手法を提案する。
提案手法では,特徴抽出器の内部表現に融合した忠実度マップの推定値を利用する。
オラクルの忠実度マップを用いた場合, ノイズや復元画像のトレーニングにおいて, 完全に再トレーニングされた手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-01T17:58:32Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Unpaired Learning of Deep Image Denoising [80.34135728841382]
本稿では,自己指導型学習と知識蒸留を取り入れた2段階の手法を提案する。
自己教師型学習では,実雑音の画像のみから視覚を学習するための拡張型盲点ネットワーク(D-BSN)を提案する。
実験の結果,本手法は合成ノイズ画像と実世界のノイズ画像の両方で良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-08-31T16:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。