論文の概要: Pre-trained Spatial Priors on Multichannel NMF for Music Source
Separation
- arxiv url: http://arxiv.org/abs/2310.05821v1
- Date: Mon, 9 Oct 2023 16:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:38:23.107767
- Title: Pre-trained Spatial Priors on Multichannel NMF for Music Source
Separation
- Title(参考訳): 音源分離のためのマルチチャネルNMFの事前訓練
- Authors: Pablo Cabanas-Molero, Antonio J. Munoz-Montoro, Julio Carabias-Orti,
Pedro Vera-Candeas
- Abstract要約: 本研究では,各センサ位置における室内インパルス応答とトランスデューサ応答に関する情報を取得するために,単独通路を用いた空間混合フィルタを訓練する。
この事前学習されたフィルタは、異なる音源の分散をよりよく捉えるために、マルチチャネル非負行列分解スキームに統合される。
ポリフォニックアンサンブルの実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 0.3999851878220877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel approach to sound source separation that
leverages spatial information obtained during the recording setup. Our method
trains a spatial mixing filter using solo passages to capture information about
the room impulse response and transducer response at each sensor location. This
pre-trained filter is then integrated into a multichannel non-negative matrix
factorization (MNMF) scheme to better capture the variances of different sound
sources. The recording setup used in our experiments is the typical setup for
orchestra recordings, with a main microphone and a close "cardioid" or
"supercardioid" microphone for each section of the orchestra. This makes the
proposed method applicable to many existing recordings. Experiments on
polyphonic ensembles demonstrate the effectiveness of the proposed framework in
separating individual sound sources, improving performance compared to
conventional MNMF methods.
- Abstract(参考訳): 本稿では,記録中に得られる空間情報を活用した音源分離手法を提案する。
本手法では, 室内インパルス応答とトランスデューサ応答に関する情報を各センサ位置で取得するために, 単独経路を用いた空間混合フィルタを訓練する。
この事前学習されたフィルタは、異なる音源の分散をよりよく捉えるために、マルチチャネル非負行列分解(MNMF)スキームに統合される。
本実験で使用する録音装置は、管弦楽録音の典型的構成であり、管弦楽の各区間にメインマイクと密接な"cardioid"または"supercardioid"マイクロホンが設けられている。
これにより,提案手法は多くの既存記録に適用できる。
ポリフォニックアンサンブルの実験により,提案手法が個々の音源を分離し,従来のmnmf法と比較して性能を向上させることの有効性が示された。
関連論文リスト
- wav2pos: Sound Source Localization using Masked Autoencoders [12.306126455995603]
本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-28T13:09:20Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects [23.29395422386749]
入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
論文 参考訳(メタデータ) (2022-11-04T03:45:17Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - Visually Guided Sound Source Separation using Cascaded Opponent Filter
Network [15.26733033527393]
カスケードされた応答フィルタ(COF)フレームワークは、ソース分離を洗練させる複数のステージから構成される。
COFのキー要素は、ソース間の残留成分を識別し、再配置する新しい反対フィルタモジュールである。
本研究の目的は,映像フレーム,光学フロー,ダイナミックイメージ,およびそれらの組み合わせに基づいて,様々な表現について検討することである。
論文 参考訳(メタデータ) (2020-06-04T17:27:49Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。