論文の概要: Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method
- arxiv url: http://arxiv.org/abs/2105.04079v1
- Date: Mon, 10 May 2021 02:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 01:43:32.486281
- Title: Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method
- Title(参考訳): インパルス不変法に基づく畳み込み層を用いたサンプリング周波数非依存音源分離
- Authors: Koichi Saito, Tomohiko Nakamura, Kohei Yatabe, Yuma Koizumi, Hiroshi
Saruwatari
- Abstract要約: 単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
- 参考スコア(独自算出の注目度): 67.24600975813419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio source separation is often used as preprocessing of various
applications, and one of its ultimate goals is to construct a single versatile
model capable of dealing with the varieties of audio signals. Since sampling
frequency, one of the audio signal varieties, is usually application specific,
the preceding audio source separation model should be able to deal with audio
signals of all sampling frequencies specified in the target applications.
However, conventional models based on deep neural networks (DNNs) are trained
only at the sampling frequency specified by the training data, and there are no
guarantees that they work with unseen sampling frequencies. In this paper, we
propose a convolution layer capable of handling arbitrary sampling frequencies
by a single DNN. Through music source separation experiments, we show that the
introduction of the proposed layer enables a conventional audio source
separation model to consistently work with even unseen sampling frequencies.
- Abstract(参考訳): 音源分離は様々なアプリケーションの前処理としてよく用いられ、その最終的な目的の1つは、様々なオーディオ信号を扱うことのできる単一の汎用モデルを構築することである。
音声信号の種類の一つであるサンプリング周波数は通常アプリケーション固有であるため、先行するオーディオソース分離モデルは、ターゲットアプリケーションで指定された全てのサンプリング周波数の音声信号を処理可能であるべきである。
しかし、ディープニューラルネットワーク(DNN)に基づく従来のモデルは、トレーニングデータによって指定されたサンプリング周波数でのみ訓練されており、未知のサンプリング周波数で動作する保証はない。
本稿では,任意のサンプリング周波数を単一のdnnで処理可能な畳み込み層を提案する。
音源分離実験により,提案層の導入により,従来の音源分離モデルではサンプリング周波数が不明瞭である場合も一貫して動作可能であることを示す。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs [0.0]
単一画像生成敵ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成する。
SpecSinGANはワンショットのサウンド効果を1つ受け取り、まるで同じレコーディングセッションと異なるテイクであるかのように、その新しいバリエーションを生成する。
論文 参考訳(メタデータ) (2021-10-14T12:25:52Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Multi-stream Convolutional Neural Network with Frequency Selection for
Robust Speaker Verification [2.3437178262034095]
マルチストリーム畳み込みニューラルネットワーク(CNN)による話者検証のための新しいフレームワークを提案する。
提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。
voxcelebデータセットの広範な実験を行い,マルチストリームcnnが単一ストリームベースラインを大きく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-21T07:23:40Z) - Choosing a sampling frequency for ECG QRS detection using convolutional
networks [1.6822770693792823]
本研究では,6種類のサンプル周波数が4種類の畳み込みネットワークモデルに与える影響について検討した。
畳み込みネットワークに基づくディープラーニングモデルは、100Hzまたは250Hzの周波数でサンプリングされたECG信号に対して高いレベルの検出精度を評価することができる。
論文 参考訳(メタデータ) (2020-07-04T09:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。