論文の概要: Reverberation as Supervision for Speech Separation
- arxiv url: http://arxiv.org/abs/2211.08303v1
- Date: Tue, 15 Nov 2022 17:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:16:59.450205
- Title: Reverberation as Supervision for Speech Separation
- Title(参考訳): 音声分離の監督としての残響
- Authors: Rohith Aralikatti, Christoph Boeddeker, Gordon Wichern, Aswin
Shanmugam Subramanian, Jonathan Le Roux
- Abstract要約: 単一チャンネル残響音声分離のための新規な教師なし損失関数である監視(RAS)を提案する。
トレーニング時に2チャネルの混合物が利用可能であると仮定し、ニューラルネットワークをトレーニングしてソースを分離する。
予測右チャネル混合系のスケール不変信号-歪み比(SI-SDR)を最小化することは,ネットワークを左チャネルソースの分離に向けて暗黙的に導くことを示す。
- 参考スコア(独自算出の注目度): 35.3840774838631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes reverberation as supervision (RAS), a novel unsupervised
loss function for single-channel reverberant speech separation. Prior methods
for unsupervised separation required the synthesis of mixtures of mixtures or
assumed the existence of a teacher model, making them difficult to consider as
potential methods explaining the emergence of separation abilities in an
animal's auditory system. We assume the availability of two-channel mixtures at
training time, and train a neural network to separate the sources given one of
the channels as input such that the other channel may be predicted from the
separated sources. As the relationship between the room impulse responses
(RIRs) of each channel depends on the locations of the sources, which are
unknown to the network, the network cannot rely on learning that relationship.
Instead, our proposed loss function fits each of the separated sources to the
mixture in the target channel via Wiener filtering, and compares the resulting
mixture to the ground-truth one. We show that minimizing the scale-invariant
signal-to-distortion ratio (SI-SDR) of the predicted right-channel mixture with
respect to the ground truth implicitly guides the network towards separating
the left-channel sources. On a semi-supervised reverberant speech separation
task based on the WHAMR! dataset, using training data where just 5% (resp.,
10%) of the mixtures are labeled with associated isolated sources, we achieve
70% (resp., 78%) of the SI-SDR improvement obtained when training with
supervision on the full training set, while a model trained only on the labeled
data obtains 43% (resp., 45%).
- Abstract(参考訳): 本稿では,単一チャンネル残響音声分離のための非教師付き損失関数RASを提案する。
教師のいない分離の方法は、混合混合物の合成や教師モデルの存在を想定する必要があったため、動物の聴覚系における分離能力の出現を説明する潜在的な方法としては考慮が困難であった。
学習時間に2チャンネル混合が利用可能であると仮定し、一方のチャネルが入力として与えられたソースを、他方のチャネルが分離されたソースから予測できるようにニューラルネットワークを訓練する。
各チャネルの部屋インパルス応答(RIR)の関係は、ネットワークに未知なソースの位置に依存するため、ネットワークはその関係を学習に頼ることはできない。
その代わりに、提案した損失関数は、Wenerフィルタによるターゲットチャネルの混合にそれぞれ分離したソースを適合させ、その結果の混合を接地構造と比較する。
本研究では, 予測右チャネル混合のスケール不変信号-歪み比 (SI-SDR) の最小化が, 左チャネルソースの分離に向けて暗黙的にネットワークを導くことを示す。
whamr!データセットに基づく半教師付き残響音声分離タスクでは、約5%(resp., 10%)の混合物が関連する分離されたソースにラベル付けされたトレーニングデータを用いて、全トレーニングセットの監視により得られたsi-sdr改善の70%(resp., 78%)を達成し、ラベル付きデータのみにトレーニングされたモデルは43%(resp., 45%)を得る。
関連論文リスト
- Neural Blind Source Separation and Diarization for Distant Speech Recognition [38.09770107659523]
我々は、弱い教師付きで神経推論モデルを導入し、訓練する。
訓練されたモデルは、補助的な情報なしで、音声の混合を共同で分離、ダイアリゼーションすることができる。
AMIコーパスを用いた実験により,本手法はオラクルダイアリゼーションの結果でGASより優れていた。
論文 参考訳(メタデータ) (2024-06-12T16:45:35Z) - Decentralized Federated Learning Over Imperfect Communication Channels [68.08499874460857]
本稿では、分散化フェデレーション学習(D-FL)における不完全なコミュニケーションチャネルの影響を解析する。
トレーニングラウンドあたりのローカルアグリゲーションの最適な数を決定し、ネットワークトポロジと不完全なチャネルに適応する。
D-FLは、最適数の局所的なアグリゲーションを持つため、トレーニング精度が10%以上向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-21T16:04:32Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Diffusion-based Generative Speech Source Separation [27.928990101986862]
微分方程式(SDE)のスコアマッチングに基づく新しい単一チャネルソース分離法であるDiffSepを提案する。
WSJ0 2mixデータセットの実験では、メソッドの可能性が示されています。
この手法は音声強調にも適しており,VoiceBank-DEMANDデータセットの先行処理と競合する性能を示す。
論文 参考訳(メタデータ) (2022-10-31T13:46:55Z) - Adversarial Permutation Invariant Training for Universal Sound
Separation [23.262892768718824]
本研究では,PIT(Permutation Invariant Training)と敵対的損失を補完するが,音声音源分離における標準定式化は困難である。
我々はこの課題を、新しいI-置換文脈に基づく敵意の喪失と、複数の差別者による訓練によって克服する。
実験の結果, 残響FUSSデータセットにおいて, 損失(同一モデルとデータセットの保持)を単純に改善することで, 1.4dB SI-SNRiの非無視改善が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-21T17:04:17Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - FedRec: Federated Learning of Universal Receivers over Fading Channels [92.15358738530037]
本稿では,ダウンリンクフェージングチャネルに対するニューラルネットワークを用いたシンボル検出手法を提案する。
複数のユーザが協力して、普遍的なデータ駆動型検出器を学習する。
得られた受信機の性能は、フェーディング統計の知識を必要とせずに、様々なチャネル条件下でMAP性能に近づくことを示す。
論文 参考訳(メタデータ) (2020-11-14T11:29:55Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。