論文の概要: Spatial Processing Front-End For Distant ASR Exploiting Self-Attention
Channel Combinator
- arxiv url: http://arxiv.org/abs/2203.13919v1
- Date: Fri, 25 Mar 2022 21:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:59:56.582460
- Title: Spatial Processing Front-End For Distant ASR Exploiting Self-Attention
Channel Combinator
- Title(参考訳): セルフアテンションチャネルコンビネータを利用した遠隔asrのための空間処理フロントエンド
- Authors: Dushyant Sharma and Rong Gong and James Fosburgh and Stanislav Yu.
Kruchinin and Patrick A. Naylor and Ljubomir Milanovic
- Abstract要約: Weighted Prediction Error (WPE) 法によるチャネル短縮に基づく新しいマルチチャネルフロントエンドを提案する。
本研究では,ContextNetをベースとしたエンド・ツー・エンド(E2E)ASRシステムの一部として提案するシステムが,主要なASRシステムより優れていることを示す。
- 参考スコア(独自算出の注目度): 11.248169478873344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel multi-channel front-end based on channel shortening with
theWeighted Prediction Error (WPE) method followed by a fixed MVDR beamformer
used in combination with a recently proposed self-attention-based channel
combination (SACC) scheme, for tackling the distant ASR problem. We show that
the proposed system used as part of a ContextNet based end-to-end (E2E) ASR
system outperforms leading ASR systems as demonstrated by a 21.6% reduction in
relative WER on a multi-channel LibriSpeech playback dataset. We also show how
dereverberation prior to beamforming is beneficial and compare the WPE method
with a modified neural channel shortening approach. An analysis of the
non-intrusive estimate of the signal C50 confirms that the 8 channel WPE method
provides significant dereverberation of the signals (13.6 dB improvement). We
also show how the weights of the SACC system allow the extraction of accurate
spatial information which can be beneficial for other speech processing
applications like diarization.
- Abstract(参考訳): 本稿では,チャネル短縮と重み付き予測誤差 (wpe) 法を併用した新しいマルチチャネルフロントエンドと,最近提案されているsacc(self-attention-based channel combination)方式を併用した固定mvdrビームフォーマを提案する。
提案方式はContextNetをベースとしたエンド・ツー・エンド(E2E)ASRシステムの一部として,マルチチャネルLibriSpeechデータセット上での相対的なWERの21.6%削減により,主要なASRシステムより優れていることを示す。
また,ビームフォーミングに先立っての除去がいかに有用かを示し,WPE法とニューラルチャネル短縮法との比較を行った。
信号C50の非侵入推定の分析により、8チャネルWPE法が信号の顕著な収差(13.6dB改善)を提供することを確認した。
また、SACCシステムの重み付けにより、ダイアリゼーションなどの他の音声処理アプリケーションに有用な正確な空間情報の抽出が可能となることを示す。
関連論文リスト
- Joint Sparsity Pattern Learning Based Channel Estimation for Massive
MIMO-OTFS Systems [46.42375183269616]
大規模マルチインプット・マルチアウトプット(MIMO)変調システムのためのジョイント・スパシティ・パターン・ラーニング(JSPL)に基づくチャネル推定手法を提案する。
シミュレーション結果と解析の結果から,提案したチャネル推定手法は,最先端のベースライン方式よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-06T15:05:39Z) - Extreme Learning Machine-based Channel Estimation in IRS-Assisted Multi-User ISAC System [32.74137740936128]
本稿では、IRS支援マルチユーザISACシステムに対して、初めて実用的なチャネル推定手法を提案する。
全体推定問題をサブ1に転送する2段階の手法を提案する。
ISAC BSとダウンリンクユーザの低コスト要求を考慮して、提案した2段階のアプローチは、効率的なニューラルネットワーク(NN)フレームワークによって実現されている。
論文 参考訳(メタデータ) (2024-01-29T14:15:11Z) - Pay Less But Get More: A Dual-Attention-based Channel Estimation Network
for Massive MIMO Systems with Low-Density Pilots [41.213515826100696]
低密度パイロットによる正確なチャネル推定を実現するために,デュアルアテンションに基づくチャネル推定ネットワーク(DACEN)を提案する。
実験結果から,提案手法は既存の手法よりも優れたチャネル推定性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-02T05:34:25Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - Model-Driven Deep Learning Based Channel Estimation and Feedback for
Millimeter-Wave Massive Hybrid MIMO Systems [61.78590389147475]
本稿では,ミリ波(mmWave)システムのモデル駆動深層学習(MDDL)に基づくチャネル推定とフィードバック方式を提案する。
無線周波数(RF)鎖の限られた数から高次元チャネルを推定するためのアップリンクパイロットオーバーヘッドを低減するために,位相シフトネットワークとチャネル推定器を自動エンコーダとして共同で訓練することを提案する。
MDDLに基づくチャネル推定とフィードバック方式は,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-22T13:34:53Z) - Deep Denoising Neural Network Assisted Compressive Channel Estimation
for mmWave Intelligent Reflecting Surfaces [99.34306447202546]
本稿では,mmWave IRSシステムに対するディープデノイングニューラルネットワークを用いた圧縮チャネル推定法を提案する。
我々はまず、受信チェーンをほとんど使わず、アップリンクのユーザ-IRSチャネルを推定するハイブリッド・パッシブ/アクティブIRSアーキテクチャを導入する。
完全チャネル行列は、圧縮センシングに基づいて限られた測定値から再構成することができる。
論文 参考訳(メタデータ) (2020-06-03T12:18:57Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Millimeter Wave Communications with an Intelligent Reflector:
Performance Optimization and Distributional Reinforcement Learning [119.97450366894718]
ミリ波基地局のダウンリンクマルチユーザ通信を最適化するための新しいフレームワークを提案する。
チャネル状態情報(CSI)をリアルタイムで計測するために,チャネル推定手法を開発した。
最適赤外反射を学習し、ダウンリンク能力の期待を最大化するために、分布強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-02-24T22:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。