論文の概要: Self-Supervised Learning for Multi-Channel Neural Transducer
- arxiv url: http://arxiv.org/abs/2408.02945v1
- Date: Tue, 6 Aug 2024 04:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:59:44.467638
- Title: Self-Supervised Learning for Multi-Channel Neural Transducer
- Title(参考訳): マルチチャネルニューラルトランスデューサのための自己教師付き学習
- Authors: Atsushi Kojima,
- Abstract要約: 本稿では,wav2vec 2.0 フレームワークに基づくマルチチャネルエンドツーエンド ASR モデルの自己教師型学習手法について検討する。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
- 参考スコア(独自算出の注目度): 3.045851438458641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning, such as with the wav2vec 2.0 framework significantly improves the accuracy of end-to-end automatic speech recognition (ASR). Wav2vec 2.0 has been applied to single-channel end-to-end ASR models. In this work, we explored a self-supervised learning method for a multi-channel end-to-end ASR model based on the wav2vec 2.0 framework. As the multi-channel end-to-end ASR model, we focused on a multi-channel neural transducer. In pre-training, we compared three different methods for feature quantization to train a multi-channel conformer audio encoder: joint quantization, feature-wise quantization and channel-wise quantization. In fine-tuning, we trained the multi-channel conformer-transducer. All experiments were conducted using the far-field in-house and CHiME-4 datasets. The results of the experiments showed that feature-wise quantization was the most effective among the methods. We observed a 66% relative reduction in character error rate compared with the model without any pre-training for the far-field in-house dataset.
- Abstract(参考訳): wav2vec 2.0フレームワークのような自己教師型学習は、エンドツーエンドの自動音声認識(ASR)の精度を大幅に向上させる。
Wav2vec 2.0 はシングルチャネルのエンドツーエンド ASR モデルに適用されている。
本研究では,wav2vec 2.0フレームワークに基づくマルチチャネルエンドツーエンドASRモデルの自己教師型学習手法について検討した。
マルチチャネル終端ASRモデルとして、我々はマルチチャネルニューラルトランスデューサに焦点を当てた。
事前学習において,マルチチャンネルコンバータオーディオエンコーダを学習するために,特徴量化のための3つの異なる手法を比較した。
微調整ではマルチチャネルコンバータ変換器を訓練した。
すべての実験は遠距離場内およびCHiME-4データセットを用いて行われた。
実験の結果, 特徴量化法が最も有効であることが示唆された。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
関連論文リスト
- Mutual Learning of Single- and Multi-Channel End-to-End Neural
Diarization [34.65357110940456]
本稿では、話者ダイアリゼーションに焦点を当て、上記の双方向知識伝達を交互に行うことを提案する。
単一チャネルとマルチチャネルの両方の入力を処理できるエンドツーエンドのニューラルダイアリゼーションモデルを導入する。
2つの話者データによる実験結果から,提案手法は単一話者と複数話者のダイアリゼーション性能を相互に向上することが示された。
論文 参考訳(メタデータ) (2022-10-07T11:03:32Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - ChannelAugment: Improving generalization of multi-channel ASR by
training with input channel randomization [6.42706307642403]
E2E(End-to-end)マルチチャネルASRシステムは、遠距離フィールドASRタスクにおける最先端の性能を示す。
このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されることである。
本稿では,学習中のマルチチャンネル音声入力において,ランダムにチャンネルをドロップする手法に基づく,シンプルで効果的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:13:47Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition [17.009051842682677]
畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
論文 参考訳(メタデータ) (2021-05-12T19:32:24Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Data-Driven Symbol Detection via Model-Based Machine Learning [117.58188185409904]
機械学習(ML)とモデルベースアルゴリズムを組み合わせた,検出設計のシンボル化を目的とした,データ駆動型フレームワークについてレビューする。
このハイブリッドアプローチでは、よく知られたチャネルモデルに基づくアルゴリズムをMLベースのアルゴリズムで拡張し、チャネルモデル依存性を除去する。
提案手法は, 正確なチャネル入出力統計関係を知らなくても, モデルベースアルゴリズムのほぼ最適性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-14T06:58:27Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。