論文の概要: Semi-supervised source localization with deep generative modeling
- arxiv url: http://arxiv.org/abs/2005.13163v3
- Date: Fri, 12 Feb 2021 01:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:50:52.386907
- Title: Semi-supervised source localization with deep generative modeling
- Title(参考訳): 深部生成モデルを用いた半教師付きソースローカライゼーション
- Authors: Michael J. Bianco, Sharon Gannot, and Peter Gerstoft
- Abstract要約: 可変オートエンコーダ(VAE)を用いた深部生成モデルに基づく半教師付きローカライゼーション手法を提案する。
VAE-SSLはラベル制限シナリオでSRP-PHATとCNNの両方より優れている。
- 参考スコア(独自算出の注目度): 27.344649091365067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a semi-supervised localization approach based on deep generative
modeling with variational autoencoders (VAEs). Localization in reverberant
environments remains a challenge, which machine learning (ML) has shown promise
in addressing. Even with large data volumes, the number of labels available for
supervised learning in reverberant environments is usually small. We address
this issue by performing semi-supervised learning (SSL) with convolutional
VAEs. The VAE is trained to generate the phase of relative transfer functions
(RTFs), in parallel with a DOA classifier, on both labeled and unlabeled RTF
samples. The VAE-SSL approach is compared with SRP-PHAT and fully-supervised
CNNs. We find that VAE-SSL can outperform both SRP-PHAT and CNN in
label-limited scenarios.
- Abstract(参考訳): 本稿では,変分オートエンコーダを用いた深部生成モデルに基づく半教師付きローカライズ手法を提案する。
残響環境におけるローカライゼーションは依然として課題であり、機械学習(ML)が対処において約束している。
大規模なデータ量であっても、残響環境における教師あり学習に利用できるラベルの数は少ない。
本稿では,畳み込みVAEを用いた半教師付き学習(SSL)によってこの問題に対処する。
VAEは、ラベル付きとラベルなしのRTFサンプルの両方で、DOA分類器と並行して相対移動関数(RTF)の位相を生成するように訓練されている。
VAE-SSLアプローチは、SRP-PHATと完全な教師付きCNNと比較される。
VAE-SSLはラベル制限シナリオにおいて,SRP-PHATとCNNのどちらよりも優れていることがわかった。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Biologically Plausible Training Mechanisms for Self-Supervised Learning
in Deep Networks [14.685237010856953]
我々は,深層ネットワークにおける自己教師付き学習(SSL)のための生物学的に妥当なトレーニング機構を開発する。
バックパゲーションの2つの選択肢のうちの1つを用いて学習を行うことができることを示す。
論文 参考訳(メタデータ) (2021-09-30T12:56:57Z) - Semi-supervised source localization in reverberant environments with
deep generative modeling [25.085177610870666]
残響環境における音源定位に対する半監督的アプローチを提案する。
このアプローチは深い生成モデルに基づいている。
VAE-SSL は SRP-PHAT と完全教師付き CNN の両方より優れていることがわかった。
論文 参考訳(メタデータ) (2021-01-26T08:54:38Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。