論文の概要: Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- arxiv url: http://arxiv.org/abs/2107.04261v1
- Date: Fri, 9 Jul 2021 07:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:49:38.680161
- Title: Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- Title(参考訳): Wavelet Transform-assisted Adaptive Generative Modeling for Colorization
- Authors: Jin Li, Wanyun Li, Zichen Xu, Yuhao Wang, Qiegen Liu
- Abstract要約: 本研究では,ウェーブレット領域におけるスコアベース生成モデルを利用した新しい手法を提案する。
ウェーブレット変換によるマルチスケールおよびマルチチャネル表現を利用することで,重畳されたウェーブレット係数成分から先行情報を学習する。
実験により, 提案モデルが着色品質, 特に着色性, 多様性に顕著な改善が認められた。
- 参考スコア(独自算出の注目度): 15.814591440291652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised deep learning has recently demonstrated the promise to produce
high-quality samples. While it has tremendous potential to promote the image
colorization task, the performance is limited owing to the manifold hypothesis
in machine learning. This study presents a novel scheme that exploiting the
score-based generative model in wavelet domain to address the issue. By taking
advantage of the multi-scale and multi-channel representation via wavelet
transform, the proposed model learns the priors from stacked wavelet
coefficient components, thus learns the image characteristics under coarse and
detail frequency spectrums jointly and effectively. Moreover, such a highly
flexible generative model without adversarial optimization can execute
colorization tasks better under dual consistency terms in wavelet domain,
namely data-consistency and structure-consistency. Specifically, in the
training phase, a set of multi-channel tensors consisting of wavelet
coefficients are used as the input to train the network by denoising score
matching. In the test phase, samples are iteratively generated via annealed
Langevin dynamics with data and structure consistencies. Experiments
demonstrated remarkable improvements of the proposed model on colorization
quality, particularly on colorization robustness and diversity.
- Abstract(参考訳): 教師なしのディープラーニングは、最近高品質なサンプルを生成するという約束を実証した。
画像の着色タスクを促進する可能性は非常に高いが、機械学習における多様体仮説により性能は限られている。
本研究では,ウェーブレット領域におけるスコアベース生成モデルを利用した新しい手法を提案する。
ウェーブレット変換によるマルチスケール・マルチチャネル表現を利用して,重畳されたウェーブレット係数成分から先行成分を学習し,粗い周波数スペクトルと詳細周波数スペクトルを併用して画像特性を学習する。
さらに、逆最適化のない高フレキシブルな生成モデルは、ウェーブレット領域における二重整合項、すなわちデータ一貫性と構造整合性の下で、より優れた色付けタスクを実行することができる。
具体的には、トレーニングフェーズにおいて、ウェーブレット係数からなるマルチチャネルテンソルのセットを入力として、スコアマッチングを識別してネットワークをトレーニングする。
テストフェーズでは、サンプルはデータと構造からなるアニールランジュバンダイナミクスを介して反復的に生成される。
実験により, 提案モデルが着色品質, 特に着色性, 多様性に顕著な改善が認められた。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-dimensional Assisted Generative Model for Color Image Restoration [12.459091135428885]
本研究は,カラー画像復元作業において,高次元のスコアベース生成モデルを利用する教師なしのディープラーニング手法を提案する。
スコアベース生成モデルにおけるサンプル数と内部次元を考慮すると、チャネルコピー変換はサンプル数を増やし、ピクセルスケール変換は実現可能な次元空間を減少させる2つの異なる高次元方法が提案される。
高次元表現を学習することの難しさを軽減するために,性能を活用するためのプログレッシブ戦略を提案する。
論文 参考訳(メタデータ) (2021-08-14T04:05:29Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Joint Intensity-Gradient Guided Generative Modeling for Colorization [16.89777347891486]
本稿では,自動着色問題を解決するための反復生成モデルを提案する。
データ忠実度項における共同強度勾配制約は、生成モデル内の自由度を制限するために提案される。
実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-28T07:52:55Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。