論文の概要: Unsupervised vocal dereverberation with diffusion-based generative
models
- arxiv url: http://arxiv.org/abs/2211.04124v1
- Date: Tue, 8 Nov 2022 09:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:20:53.527328
- Title: Unsupervised vocal dereverberation with diffusion-based generative
models
- Title(参考訳): 拡散型生成モデルを用いた教師なし発声
- Authors: Koichi Saito, Naoki Murata, Toshimitsu Uesaka, Chieh-Hsin Lai, Yuhta
Takida, Takao Fukui, Yuki Mitsufuji
- Abstract要約: そこで本稿では,学習にデータペアを必要とすることなく,一般的な音楽用人工残響を除去するための教師なし手法を提案する。
提案手法は,従来の有声弁別評価基準より優れており,客観的および知覚的評価が優れていることを示す。
- 参考スコア(独自算出の注目度): 12.713895991763867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Removing reverb from reverberant music is a necessary technique to clean up
audio for downstream music manipulations. Reverberation of music contains two
categories, natural reverb, and artificial reverb. Artificial reverb has a
wider diversity than natural reverb due to its various parameter setups and
reverberation types. However, recent supervised dereverberation methods may
fail because they rely on sufficiently diverse and numerous pairs of
reverberant observations and retrieved data for training in order to be
generalizable to unseen observations during inference. To resolve these
problems, we propose an unsupervised method that can remove a general kind of
artificial reverb for music without requiring pairs of data for training. The
proposed method is based on diffusion models, where it initializes the unknown
reverberation operator with a conventional signal processing technique and
simultaneously refines the estimate with the help of diffusion models. We show
through objective and perceptual evaluations that our method outperforms the
current leading vocal dereverberation benchmarks.
- Abstract(参考訳): 残響音楽から残響を除去することは、下流の音楽操作のための音声を浄化するために必要な手法である。
音楽の残響は自然残響と人工残響の2つのカテゴリを含んでいる。
人工残響は、様々なパラメータ設定と残響タイプのため、自然残響よりも幅広い多様性を持つ。
しかし、近年の教師付きデリバベーション法は、十分に多種多様な残響観測と学習のためのデータ検索を頼りにしており、推論中に見当たらない観測に一般化できるため、失敗する可能性がある。
これらの問題を解決するために,学習用データを必要とすることなく,一般的な音楽用人工残響を除去できる教師なし手法を提案する。
提案手法は拡散モデルに基づいて,未知の残響演算子を従来の信号処理手法で初期化し,拡散モデルの助けを借りて推定を改良する。
目的的および知覚的評価を通して,本手法が現在有意な発声残響ベンチマークを上回っていることを示す。
関連論文リスト
- Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [41.3349755014379]
ビデオ異常検出は、コンピュータビジョンにおいて必須だが困難なオープンセットタスクである。
既存の再構築手法では,(1)開放シナリオに対するモデルロバストネスの制限,(2)詳細な動作再構成のための過剰な能力の制限,の2つの面で課題に直面する。
本稿では,摂動トレーニングによるモデルロバスト性を高めるために,摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models [21.66936362048033]
そこで本研究では,非教師型単一チャネル方式による共同ブラインド除去と室内インパルス応答推定について述べる。
周波数サブバンド毎に指数減衰のフィルタを用いて残響演算子をパラメータ化し、音声発声が洗練されるにつれて、対応するパラメータを反復的に推定する。
論文 参考訳(メタデータ) (2024-05-07T12:41:31Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。