論文の概要: On the Design of Deep Priors for Unsupervised Audio Restoration
- arxiv url: http://arxiv.org/abs/2104.07161v1
- Date: Wed, 14 Apr 2021 23:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:45:44.894769
- Title: On the Design of Deep Priors for Unsupervised Audio Restoration
- Title(参考訳): 教師なしオーディオ復元のための深部事前設計について
- Authors: Vivek Sivaraman Narayanaswamy, Jayaraman J. Thiagarajan, Andreas
Spanias
- Abstract要約: 既存の畳み込みアーキテクチャのネットワーク複雑性や収束挙動に影響を与えない新しいu-netベースのプリミティブを提案する。
特に,u-netアーキテクチャにおける拡張スケジュールと密接な接続を念入りに設計し,強力なオーディオプリエントを取得することを推奨する。
- 参考スコア(独自算出の注目度): 40.01416315211399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised deep learning methods for solving audio restoration problems
extensively rely on carefully tailored neural architectures that carry strong
inductive biases for defining priors in the time or spectral domain. In this
context, lot of recent success has been achieved with sophisticated
convolutional network constructions that recover audio signals in the spectral
domain. However, in practice, audio priors require careful engineering of the
convolutional kernels to be effective at solving ill-posed restoration tasks,
while also being easy to train. To this end, in this paper, we propose a new
U-Net based prior that does not impact either the network complexity or
convergence behavior of existing convolutional architectures, yet leads to
significantly improved restoration. In particular, we advocate the use of
carefully designed dilation schedules and dense connections in the U-Net
architecture to obtain powerful audio priors. Using empirical studies on
standard benchmarks and a variety of ill-posed restoration tasks, such as audio
denoising, in-painting and source separation, we demonstrate that our proposed
approach consistently outperforms widely adopted audio prior architectures.
- Abstract(参考訳): オーディオ復元問題を解決する教師なしのディープラーニング手法は、時間やスペクトル領域の定義に強い帰納バイアスを持つ、注意深く調整されたニューラルネットワークアーキテクチャに依存している。
この文脈では、スペクトル領域の音声信号を復元する高度な畳み込みネットワーク構築によって、最近の成功が数多く達成されている。
しかし、実際には、オーディオプライオリエントでは、コンボリューションカーネルの注意深いエンジニアリングが必要であり、不適切な修復タスクの解決に効果的でありながら、訓練も容易である。
そこで本稿では,既存の畳み込みアーキテクチャのネットワーク複雑性や収束挙動には影響しないが,復元性が著しく向上する新しいu-net ベース pre を提案する。
特に,u-netアーキテクチャにおける拡張スケジュールと密接な接続を念入りに設計し,強力なオーディオプリエントを取得することを推奨する。
提案手法は,標準ベンチマークの実証研究や,音声の復調,インペインティング,ソース分離など,さまざまな不正な復元作業を用いて,広く採用されているオーディオ先行アーキテクチャを一貫して上回っていることを示す。
関連論文リスト
- Room Transfer Function Reconstruction Using Complex-valued Neural Networks and Irregularly Distributed Microphones [15.396703290586418]
第1室共鳴の周波数範囲における室内伝達関数を推定するために,複素数値ニューラルネットワークを用いる。
複雑な数値のニューラルネットワークが部屋の移動関数を推定するために使われるのは、これが初めてである。
論文 参考訳(メタデータ) (2024-02-01T21:16:40Z) - Towards Architecture-Agnostic Untrained Network Priors for Image Reconstruction with Frequency Regularization [14.73423587548693]
ネットワーク先行のスペクトルバイアスを直接変調する効率的なアーキテクチャ非依存手法を提案する。
ほんの数行のコードで、パフォーマンスの低いアーキテクチャでの過度な適合を減らし、パフォーマンスの低いアーキテクチャとパフォーマンスのギャップを埋めることができます。
その結果、アーキテクチャ上のバイアス、過度な適合、および未トレーニングのネットワークプリエントのランタイム上の問題に、アーキテクチャの変更なしに同時に対処できることが初めて明らかとなった。
論文 参考訳(メタデータ) (2023-12-15T18:01:47Z) - Deep model with built-in self-attention alignment for acoustic echo
cancellation [1.30661828021882]
自己注意に基づくアライメントを組み込んだディープラーニングアーキテクチャを提案する。
本手法は, 実記録における遅延推定の困難さに対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-08-24T05:29:47Z) - Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation [47.984368369734995]
本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-10T13:37:37Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。