論文の概要: Robust Multi-channel Speech Recognition using Frequency Aligned Network
- arxiv url: http://arxiv.org/abs/2002.02520v1
- Date: Thu, 6 Feb 2020 21:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:06:23.621789
- Title: Robust Multi-channel Speech Recognition using Frequency Aligned Network
- Title(参考訳): 周波数アライメントネットワークを用いたロバストマルチチャネル音声認識
- Authors: Taejin Park, Kenichi Kumatani, Minhua Wu, Shiva Sundaram
- Abstract要約: 我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
- 参考スコア(独自算出の注目度): 23.397670239950187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional speech enhancement technique such as beamforming has known
benefits for far-field speech recognition. Our own work in frequency-domain
multi-channel acoustic modeling has shown additional improvements by training a
spatial filtering layer jointly within an acoustic model. In this paper, we
further develop this idea and use frequency aligned network for robust
multi-channel automatic speech recognition (ASR). Unlike an affine layer in the
frequency domain, the proposed frequency aligned component prevents one
frequency bin influencing other frequency bins. We show that this modification
not only reduces the number of parameters in the model but also significantly
and improves the ASR performance. We investigate effects of frequency aligned
network through ASR experiments on the real-world far-field data where users
are interacting with an ASR system in uncontrolled acoustic environments. We
show that our multi-channel acoustic model with a frequency aligned network
shows up to 18% relative reduction in word error rate.
- Abstract(参考訳): ビームフォーミングのような従来の音声強調技術は、遠距離場音声認識の利点が知られている。
周波数領域のマルチチャネル音響モデリングにおける我々の研究は、音響モデル内で協調的に空間フィルタリング層を訓練することでさらなる改善を示した。
本稿では、このアイデアをさらに発展させ、堅牢なマルチチャネル自動音声認識(ASR)のための周波数整列ネットワークを使用する。
周波数領域のアフィン層とは異なり、提案された周波数アライメント成分は、他の周波数ビンに影響を及ぼす1つの周波数ビンを防止する。
この修正によりモデル内のパラメータ数が減少するだけでなく、asrの性能も大幅に向上することが示された。
非制御音響環境においてユーザがasrシステムと相互作用する実世界遠距離データに対するasr実験による周波数アライメントネットワークの効果について検討する。
その結果,周波数整合ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大18%低減できることがわかった。
関連論文リスト
- Accelerating Inference of Networks in the Frequency Domain [8.125023712173686]
本稿では,周波数パラメータが疎いネットワークを高速化するために,周波数領域におけるネットワーク推論を提案する。
特に、空間領域におけるネットワーク推論に双対な周波数推論連鎖を提案する。
提案手法は,高速比(100倍以上)の場合の精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-06T03:34:38Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Three-Way Deep Neural Network for Radio Frequency Map Generation and
Source Localization [67.93423427193055]
空間、時間、周波数領域にわたる無線スペクトルのモニタリングは、5Gと6G以上の通信技術において重要な特徴となる。
本稿では,空間領域全体にわたる不規則分散計測を補間するGAN(Generative Adversarial Network)機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:25:10Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - ChannelAugment: Improving generalization of multi-channel ASR by
training with input channel randomization [6.42706307642403]
E2E(End-to-end)マルチチャネルASRシステムは、遠距離フィールドASRタスクにおける最先端の性能を示す。
このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されることである。
本稿では,学習中のマルチチャンネル音声入力において,ランダムにチャンネルをドロップする手法に基づく,シンプルで効果的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:13:47Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。