論文の概要: Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech
Recognition: A Comparative Study
- arxiv url: http://arxiv.org/abs/2203.16757v1
- Date: Thu, 31 Mar 2022 02:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:42:19.683260
- Title: Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech
Recognition: A Comparative Study
- Title(参考訳): 複数チャンネル終端音声認識のための単一チャンネル音声の発声:比較検討
- Authors: Keyu An and Zhijian Ou
- Abstract要約: 3つのスキームを比較して、マルチチャネルエンドツーエンドASRのための外部単一チャネルデータを利用する。
CHiME-4 と AISHELL-4 データセットを用いた実験により,3 つの手法がすべてマルチチャネルのエンドツーエンド音声認識性能を向上させることを示した。
- 参考スコア(独自算出の注目度): 20.676254848070066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the end-to-end training approach for multi-channel ASR has shown
its effectiveness, which usually consists of a beamforming front-end and a
recognition back-end. However, the end-to-end training becomes more difficult
due to the integration of multiple modules, particularly considering that
multi-channel speech data recorded in real environments are limited in size.
This raises the demand to exploit the single-channel data for multi-channel
end-to-end ASR. In this paper, we systematically compare the performance of
three schemes to exploit external single-channel data for multi-channel
end-to-end ASR, namely back-end pre-training, data scheduling, and data
simulation, under different settings such as the sizes of the single-channel
data and the choices of the front-end. Extensive experiments on CHiME-4 and
AISHELL-4 datasets demonstrate that while all three methods improve the
multi-channel end-to-end speech recognition performance, data simulation
outperforms the other two, at the cost of longer training time. Data scheduling
outperforms back-end pre-training marginally but nearly consistently,
presumably because that in the pre-training stage, the back-end tends to
overfit on the single-channel data, especially when the single-channel data
size is small.
- Abstract(参考訳): 近年,マルチチャネルASRにおけるエンドツーエンドトレーニング手法の有効性が示され,ビームフォーミングフロントエンドと認識バックエンドが一般的である。
しかし,複数のモジュールの統合により,実環境に記録されるマルチチャネル音声データのサイズが制限されることを考えると,エンドツーエンドのトレーニングは困難になる。
これにより、マルチチャネルのエンドツーエンドASRのための単一チャネルデータを利用する必要が生じる。
本稿では,マルチチャネル・エンド・ツー・エンドASR(バックエンド事前学習,データスケジューリング,データシミュレーション)における外部単一チャネルデータを利用する3つの方式の性能を,単一チャネルデータのサイズやフロントエンドの選択といった異なる設定下で体系的に比較する。
CHiME-4とAISHELL-4データセットの大規模な実験により、3つの手法がすべてマルチチャネルのエンドツーエンド音声認識性能を改善する一方で、データシミュレーションは他の2つよりも長いトレーニング時間で性能が向上することが示された。
データスケジューリングは、トレーニング前の段階では、特にシングルチャネルのデータサイズが小さい場合、単一のチャネルデータに過度に適合する傾向があるため、ほとんど一貫して、バックエンドのトレーニングよりも優れています。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Multi-view self-supervised learning for multivariate variable-channel
time series [1.094320514634939]
入力チャネルを個別に操作するための1つのエンコーダの学習を提案する。
次に、メッセージパッシングニューラルネットワークを使用して、チャネル間の単一の表現を抽出します。
TS2Vecの損失と組み合わせることで、ほとんどの設定で他のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-13T19:03:06Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Leveraging Real Conversational Data for Multi-Channel Continuous Speech
Separation [24.577094543380223]
既存のマルチチャネル連続音声分離(CSS)モデルは、教師付きデータに大きく依存している。
そこで本研究では,教師付きデータと大規模非教師付き実世界の会話データの両方を活用可能なCSSモデルの3段階トレーニング手法を提案する。
この手法を,任意のマイクロホンアレイから収集したマルチチャネルデータを利用する配列幾何学に依存しないCSSモデルに適用する。
論文 参考訳(メタデータ) (2022-04-07T05:45:52Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - ChannelAugment: Improving generalization of multi-channel ASR by
training with input channel randomization [6.42706307642403]
E2E(End-to-end)マルチチャネルASRシステムは、遠距離フィールドASRタスクにおける最先端の性能を示す。
このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されることである。
本稿では,学習中のマルチチャンネル音声入力において,ランダムにチャンネルをドロップする手法に基づく,シンプルで効果的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:13:47Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - FedRec: Federated Learning of Universal Receivers over Fading Channels [92.15358738530037]
本稿では,ダウンリンクフェージングチャネルに対するニューラルネットワークを用いたシンボル検出手法を提案する。
複数のユーザが協力して、普遍的なデータ駆動型検出器を学習する。
得られた受信機の性能は、フェーディング統計の知識を必要とせずに、様々なチャネル条件下でMAP性能に近づくことを示す。
論文 参考訳(メタデータ) (2020-11-14T11:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。