論文の概要: ChannelAugment: Improving generalization of multi-channel ASR by
training with input channel randomization
- arxiv url: http://arxiv.org/abs/2109.11225v1
- Date: Thu, 23 Sep 2021 09:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:48:38.480052
- Title: ChannelAugment: Improving generalization of multi-channel ASR by
training with input channel randomization
- Title(参考訳): channelaugment: 入力チャネルランダム化によるトレーニングによるマルチチャネルasrの一般化
- Authors: Marco Gaudesi, Felix Weninger, Dushyant Sharma, Puming Zhan
- Abstract要約: E2E(End-to-end)マルチチャネルASRシステムは、遠距離フィールドASRタスクにおける最先端の性能を示す。
このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されることである。
本稿では,学習中のマルチチャンネル音声入力において,ランダムにチャンネルをドロップする手法に基づく,シンプルで効果的なデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 6.42706307642403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) multi-channel ASR systems show state-of-the-art performance
in far-field ASR tasks by joint training of a multi-channel front-end along
with the ASR model. The main limitation of such systems is that they are
usually trained with data from a fixed array geometry, which can lead to
degradation in accuracy when a different array is used in testing. This makes
it challenging to deploy these systems in practice, as it is costly to retrain
and deploy different models for various array configurations. To address this,
we present a simple and effective data augmentation technique, which is based
on randomly dropping channels in the multi-channel audio input during training,
in order to improve the robustness to various array configurations at test
time. We call this technique ChannelAugment, in contrast to SpecAugment (SA)
which drops time and/or frequency components of a single channel input audio.
We apply ChannelAugment to the Spatial Filtering (SF) and Minimum Variance
Distortionless Response (MVDR) neural beamforming approaches. For SF, we
observe 10.6% WER improvement across various array configurations employing
different numbers of microphones. For MVDR, we achieve a 74% reduction in
training time without causing degradation of recognition accuracy.
- Abstract(参考訳): E2E(End-to-end)マルチチャネルASRシステムは、マルチチャネルフロントエンドとASRモデルとの協調トレーニングにより、遠距離ASRタスクにおける最先端の性能を示す。
このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されるため、異なる配列がテストで使用される場合、精度が低下する可能性があることである。
これにより、さまざまな配列構成でさまざまなモデルを再トレーニングし、デプロイするコストがかかるため、これらのシステムを実際にデプロイするのは難しくなります。
そこで本研究では,学習中のマルチチャンネル音声入力のチャンネルをランダムにドロップすることで,テスト時の様々な配列構成に対するロバスト性を向上する,シンプルで効果的なデータ拡張手法を提案する。
この手法をChannelAugmentと呼び、SpecAugment(SA)とは対照的に、単一チャネル入力オーディオの時間および/または周波数成分を減少させる。
本稿では,ChannelAugmentをSpatial Filtering (SF)およびMinimum Variance Distortionless Response (MVDR)ニューラルビームフォーミングアプローチに適用する。
SFでは、異なる数のマイクロホンを用いて、様々な配列構成における10.6%のWER改善を観察する。
MVDRでは,認識精度を低下させることなく,トレーニング時間の74%削減を実現している。
関連論文リスト
- Self-Supervised Learning for Multi-Channel Neural Transducer [3.045851438458641]
本稿では,wav2vec 2.0 フレームワークに基づくマルチチャネルエンドツーエンド ASR モデルの自己教師型学習手法について検討する。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
論文 参考訳(メタデータ) (2024-08-06T04:12:31Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Omni-frequency Channel-selection Representations for Unsupervised
Anomaly Detection [11.926787216956459]
本稿では,周波数を考慮した新しいOmni- frequency Channel-Selection Reconstruction (OCR-GAN) ネットワークを提案する。
提案手法は, 再建ベースラインを+38.1, 現行のSOTA法を+0.3に大きく上回っている。
論文 参考訳(メタデータ) (2022-03-01T06:35:15Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - FedRec: Federated Learning of Universal Receivers over Fading Channels [92.15358738530037]
本稿では,ダウンリンクフェージングチャネルに対するニューラルネットワークを用いたシンボル検出手法を提案する。
複数のユーザが協力して、普遍的なデータ駆動型検出器を学習する。
得られた受信機の性能は、フェーディング統計の知識を必要とせずに、様々なチャネル条件下でMAP性能に近づくことを示す。
論文 参考訳(メタデータ) (2020-11-14T11:29:55Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。