論文の概要: Semi-supervised source localization in reverberant environments with
deep generative modeling
- arxiv url: http://arxiv.org/abs/2101.10636v1
- Date: Tue, 26 Jan 2021 08:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:35:16.464534
- Title: Semi-supervised source localization in reverberant environments with
deep generative modeling
- Title(参考訳): 深層生成モデルを用いた残響環境における半監視源の局在
- Authors: Michael J. Bianco, Sharon Gannot, Efren Fernandez-Grande, and Peter
Gerstoft
- Abstract要約: 残響環境における音源定位に対する半監督的アプローチを提案する。
このアプローチは深い生成モデルに基づいている。
VAE-SSL は SRP-PHAT と完全教師付き CNN の両方より優れていることがわかった。
- 参考スコア(独自算出の注目度): 25.085177610870666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A semi-supervised approach to acoustic source localization in reverberant
environments, based on deep generative modeling, is proposed. Localization in
reverberant environments remains an open challenge. Even with large data
volumes, the number of labels available for supervised learning in reverberant
environments is usually small. We address this issue by performing
semi-supervised learning (SSL) with convolutional variational autoencoders
(VAEs) on speech signals in reverberant environments. The VAE is trained to
generate the phase of relative transfer functions (RTFs) between microphones,
in parallel with a direction of arrival (DOA) classifier based on RTF-phase, on
both labeled and unlabeled RTF samples. In learning to perform these tasks, the
VAE-SSL explicitly learns to separate the physical causes of the RTF-phase
(i.e., source location) from distracting signal characteristics such as noise
and speech activity. Relative to existing semi-supervised localization methods
in acoustics, VAE-SSL is effectively an end-to-end processing approach which
relies on minimal preprocessing of RTF-phase features. The VAE-SSL approach is
compared with the steered response power with phase transform (SRP-PHAT) and
fully supervised CNNs. We find that VAE-SSL can outperform both SRP-PHAT and
CNN in label-limited scenarios. Further, the trained VAE-SSL system can
generate new RTF-phase samples, which shows the VAE-SSL approach learns the
physics of the acoustic environment. The generative modeling in VAE-SSL thus
provides a means of interpreting the learned representations.
- Abstract(参考訳): 深層生成モデルに基づく残響環境における音源定位に関する半監督的アプローチを提案する。
残響環境におけるローカリゼーションは未だにオープンな課題である。
大量のデータでも、残響環境での教師付き学習に使用できるラベルの数は、通常少ないです。
残響環境における音声信号に対する畳み込み可変オートエンコーダ(VAE)による半教師付き学習(SSL)を行うことでこの問題に対処します。
VAEは、ラベル付きおよびラベルなしのRTFサンプルのRTF位相に基づく到着方向(DOA)分類器と並行して、マイク間の相対移動関数(RTF)の位相を生成するように訓練されている。
これらのタスクを実行するための学習において、VAE-SSLはRTF相の物理的原因(すなわち音源位置)をノイズや音声活動などの信号特性を逸脱することから明確に学習する。
音響学における既存の半教師付きローカライズ手法とは対照的に、VAE-SSLはRTF位相特徴の最小前処理に依存するエンドツーエンド処理アプローチである。
VAE-SSLアプローチは、位相変換(SRP-PHAT)と完全に監視されたCNNによる操舵応答電力と比較されます。
VAE-SSLは、ラベル制限シナリオでSRP-PHATとCNNの両方を上回る可能性があります。
さらに、トレーニングされたVAE-SSLシステムは、新しいRTF相サンプルを生成することができ、VAE-SSLアプローチが音響環境の物理を学習することを示す。
VAE-SSLにおける生成モデリングは、学習した表現を解釈する手段を提供する。
関連論文リスト
- R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Learning Cautiously in Federated Learning with Noisy and Heterogeneous
Clients [4.782145666637457]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保証と協調トレーニングを行う分散フレームワークである。
実世界のシナリオでは、クライアントはアノテーションの品質(ラベルノイズ)が低い非IIDデータ(ローカルクラス不均衡)を持つかもしれない。
我々は、追加のクリーンプロキシデータセットを使わずにFedCNIを提案する。
これには、耐雑音性のある局所解法と、ロバストなグローバルアグリゲータが含まれる。
論文 参考訳(メタデータ) (2023-04-06T06:47:14Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Semi-supervised source localization with deep generative modeling [27.344649091365067]
可変オートエンコーダ(VAE)を用いた深部生成モデルに基づく半教師付きローカライゼーション手法を提案する。
VAE-SSLはラベル制限シナリオでSRP-PHATとCNNの両方より優れている。
論文 参考訳(メタデータ) (2020-05-27T04:59:52Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。