論文の概要: Deep Audio Waveform Prior
- arxiv url: http://arxiv.org/abs/2207.10441v1
- Date: Thu, 21 Jul 2022 12:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:47:27.986021
- Title: Deep Audio Waveform Prior
- Title(参考訳): 先行したディープオーディオ波形
- Authors: Arnon Turetzky, Tzvi Michelson, Yossi Adi, Shmuel Peleg
- Abstract要約: 音源分離のための既存のSOTAアーキテクチャは、生波形を扱う場合でも、より深い事前情報を含むことを示す。
関連する深みのあるネットワークは、破損した信号に収束する前に、信号のよりクリーンなバージョンを生成する可能性が高い。
- 参考スコア(独自算出の注目度): 19.826973437576395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional neural networks contain strong priors for generating natural
looking images [1]. These priors enable image denoising, super resolution, and
inpainting in an unsupervised manner. Previous attempts to demonstrate similar
ideas in audio, namely deep audio priors, (i) use hand picked architectures
such as harmonic convolutions, (ii) only work with spectrogram input, and (iii)
have been used mostly for eliminating Gaussian noise [2]. In this work we show
that existing SOTA architectures for audio source separation contain deep
priors even when working with the raw waveform. Deep priors can be discovered
by training a neural network to generate a single corrupted signal when given
white noise as input. A network with relevant deep priors is likely to generate
a cleaner version of the signal before converging on the corrupted signal. We
demonstrate this restoration effect with several corruptions: background noise,
reverberations, and a gap in the signal (audio inpainting).
- Abstract(参考訳): 畳み込みニューラルネットワークは、自然な画像を生成するための強い先行情報を含む[1]。
これらの事前設定により、画像のデノイジング、超解像度、および教師なしのインペインティングが可能となる。
オーディオに類似したアイデア、すなわちディープオーディオプリエントを実証する以前の試み。
(i)調和畳み込みなどの手で選んだ建築を用いる。
(ii)スペクトログラム入力でのみ動作し、
(iii)主にガウス雑音([2])の除去に用いられている。
本稿では,音源分離のための既存のsotaアーキテクチャが,生波形を扱う場合においても深い先行情報を含むことを示す。
ディーププリアーは、入力としてホワイトノイズが与えられると、ニューラルネットワークを訓練して1つの破損した信号を生成することで発見できる。
関連する深みのあるネットワークは、破損した信号に収束する前に、信号のよりクリーンなバージョンを生成する可能性が高い。
背景雑音,残響,信号のギャップ(音響インパインティング)など,いくつかの汚職を伴って,この修復効果を示す。
関連論文リスト
- Bayesian Formulations for Graph Spectral Denoising [9.086602432203417]
本稿では,グラフ上の信号としてモデル化された複雑なデータに関連付けられた特徴を,前もって滑らかに表現する問題を考察する。
本稿では, ガウス雑音, 落下音, 均一分布雑音によって信号が乱される場合のアルゴリズムを提案する。
単一セルRNAシークエンスデータにおいて、画像データ上の白色ノイズや重篤なドロップアウトから信号を効果的に復元するアルゴリズムの能力を実証する。
論文 参考訳(メタデータ) (2023-11-27T23:53:19Z) - Unsupervised Denoising for Signal-Dependent and Row-Correlated Imaging Noise [54.0185721303932]
本稿では,行関連の画像ノイズを処理できる,教師なしのディープラーニングベースデノイザについて紹介する。
提案手法では,特殊設計の自己回帰デコーダを備えた変分オートエンコーダを用いる。
本手法では,事前学習した雑音モデルを必要としないため,雑音のないデータを用いてスクラッチから訓練することができる。
論文 参考訳(メタデータ) (2023-10-11T20:48:20Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Deep Learning Radio Frequency Signal Classification with Hybrid Images [0.0]
入力トレーニングデータに使用できるさまざまな前処理ステップに注目し、結果を固定されたディープラーニングアーキテクチャでテストする。
本稿では,時間領域情報と周波数領域情報の両方を利用するハイブリッド画像を提案し,コンピュータビジョン問題として分類する。
論文 参考訳(メタデータ) (2021-05-19T11:12:09Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Deep Neural Networks based Invisible Steganography for Audio-into-Image
Algorithm [0.0]
画像と音声の整合性は良好に保たれ、隠れた音声の最大長は大幅に改善されている。
第1のネットワークは秘密の音声を画像に隠蔽し、第2のネットワークは画像を復号して元の音声を得る責務を負う。
論文 参考訳(メタデータ) (2021-02-18T06:13:05Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。