論文の概要: Nonparallel High-Quality Audio Super Resolution with Domain Adaptation
and Resampling CycleGANs
- arxiv url: http://arxiv.org/abs/2210.15887v1
- Date: Fri, 28 Oct 2022 04:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:44:30.869156
- Title: Nonparallel High-Quality Audio Super Resolution with Domain Adaptation
and Resampling CycleGANs
- Title(参考訳): ドメイン適応とサイクルガン再サンプリングを用いた非並列高音質オーディオスーパーレゾリューション
- Authors: Reo Yoneyama, Ryuichi Yamamoto, Kentaro Tachibana
- Abstract要約: 本稿では,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて,未ペアデータを利用する高品質なオーディオ超解像法を提案する。
本手法は,非対向低分解能信号と高分解能信号の音響ミスマッチを処理するために,超解像法を領域適応・再サンプリング法に分解する。
提案手法は,ペアデータの利用が不可能な場合,従来の手法よりも有意に優れていたことが実験的に検証された。
- 参考スコア(独自算出の注目度): 9.593925140084846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio super-resolution models are typically trained on low- and
high-resolution audio signal pairs. Although these methods achieve highly
accurate super-resolution if the acoustic characteristics of the input data are
similar to those of the training data, challenges remain: the models suffer
from quality degradation for out-of-domain data, and paired data are required
for training. To address these problems, we propose Dual-CycleGAN, a
high-quality audio super-resolution method that can utilize unpaired data based
on two connected cycle consistent generative adversarial networks (CycleGAN).
Our method decomposes the super-resolution method into domain adaptation and
resampling processes to handle acoustic mismatch in the unpaired low- and
high-resolution signals. The two processes are then jointly optimized within
the CycleGAN framework. Experimental results verify that the proposed method
significantly outperforms conventional methods when paired data are not
available. Code and audio samples are available from
https://chomeyama.github.io/DualCycleGAN-Demo/.
- Abstract(参考訳): ニューラルオーディオ超解像モデルは通常、低解像度と高解像度のオーディオ信号ペアで訓練される。
入力データの音響特性がトレーニングデータと類似している場合、これらの手法は高精度な超解像を実現するが、課題は残る: モデルはドメイン外データの品質劣化に苦しめられ、トレーニングにはペアデータが必要となる。
これらの問題に対処するために,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて不対向データを利用する,高品質なオーディオ超解法であるDual-CycleGANを提案する。
超解像法を領域適応法と再サンプリング法に分解し,低分解能信号と高分解能信号の音響ミスマッチ処理を行う。
2つのプロセスはCycleGANフレームワーク内で共同で最適化される。
実験により,提案手法は,ペアデータがない場合の従来の手法を大きく上回ることを確認した。
コードとオーディオサンプルはhttps://chomeyama.github.io/DualCycleGAN-Demo/から入手できる。
関連論文リスト
- Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - SPI-GAN: Denoising Diffusion GANs with Straight-Path Interpolations [27.487728842037935]
本稿では,SPI-GAN(SPI-GAN)と呼ばれる改良されたGANに基づくデノナイズ手法を提案する。
SPI-GANは、CIFAR-10とCelebA-HQ-256のサンプリング品質、多様性、時間の中で最もバランスのとれたモデルの1つである。
論文 参考訳(メタデータ) (2022-06-29T08:40:55Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。