論文の概要: Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- arxiv url: http://arxiv.org/abs/2107.04261v1
- Date: Fri, 9 Jul 2021 07:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:49:38.680161
- Title: Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- Title(参考訳): Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- Authors: Jin Li, Wanyun Li, Zichen Xu, Yuhao Wang, Qiegen Liu
- Abstract要約: 本研究では,ウェーブレット領域におけるスコアベース生成モデルを利用した新しい手法を提案する。
ウェーブレット変換によるマルチスケールおよびマルチチャネル表現を利用することで,重畳されたウェーブレット係数成分から先行情報を学習する。
実験により, 提案モデルが着色品質, 特に着色性, 多様性に顕著な改善が認められた。
- 参考スコア(独自算出の注目度): 15.814591440291652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised deep learning has recently demonstrated the promise to produce
high-quality samples. While it has tremendous potential to promote the image
colorization task, the performance is limited owing to the manifold hypothesis
in machine learning. This study presents a novel scheme that exploiting the
score-based generative model in wavelet domain to address the issue. By taking
advantage of the multi-scale and multi-channel representation via wavelet
transform, the proposed model learns the priors from stacked wavelet
coefficient components, thus learns the image characteristics under coarse and
detail frequency spectrums jointly and effectively. Moreover, such a highly
flexible generative model without adversarial optimization can execute
colorization tasks better under dual consistency terms in wavelet domain,
namely data-consistency and structure-consistency. Specifically, in the
training phase, a set of multi-channel tensors consisting of wavelet
coefficients are used as the input to train the network by denoising score
matching. In the test phase, samples are iteratively generated via annealed
Langevin dynamics with data and structure consistencies. Experiments
demonstrated remarkable improvements of the proposed model on colorization
quality, particularly on colorization robustness and diversity.
- Abstract(参考訳): 教師なしのディープラーニングは、最近高品質なサンプルを生成するという約束を実証した。
画像の着色タスクを促進する可能性は非常に高いが、機械学習における多様体仮説により性能は限られている。
本研究では,ウェーブレット領域におけるスコアベース生成モデルを利用した新しい手法を提案する。
ウェーブレット変換によるマルチスケール・マルチチャネル表現を利用して,重畳されたウェーブレット係数成分から先行成分を学習し,粗い周波数スペクトルと詳細周波数スペクトルを併用して画像特性を学習する。
さらに、逆最適化のない高フレキシブルな生成モデルは、ウェーブレット領域における二重整合項、すなわちデータ一貫性と構造整合性の下で、より優れた色付けタスクを実行することができる。
具体的には、トレーニングフェーズにおいて、ウェーブレット係数からなるマルチチャネルテンソルのセットを入力として、スコアマッチングを識別してネットワークをトレーニングする。
テストフェーズでは、サンプルはデータと構造からなるアニールランジュバンダイナミクスを介して反復的に生成される。
実験により, 提案モデルが着色品質, 特に着色性, 多様性に顕著な改善が認められた。
関連論文リスト
- Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-dimensional Assisted Generative Model for Color Image Restoration [12.459091135428885]
本研究は,カラー画像復元作業において,高次元のスコアベース生成モデルを利用する教師なしのディープラーニング手法を提案する。
スコアベース生成モデルにおけるサンプル数と内部次元を考慮すると、チャネルコピー変換はサンプル数を増やし、ピクセルスケール変換は実現可能な次元空間を減少させる2つの異なる高次元方法が提案される。
高次元表現を学習することの難しさを軽減するために,性能を活用するためのプログレッシブ戦略を提案する。
論文 参考訳(メタデータ) (2021-08-14T04:05:29Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Joint Intensity-Gradient Guided Generative Modeling for Colorization [16.89777347891486]
本稿では,自動着色問題を解決するための反復生成モデルを提案する。
データ忠実度項における共同強度勾配制約は、生成モデル内の自由度を制限するために提案される。
実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-28T07:52:55Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。