論文の概要: Learning to Rank Microphones for Distant Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.02819v1
- Date: Tue, 6 Apr 2021 22:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:33:11.834896
- Title: Learning to Rank Microphones for Distant Speech Recognition
- Title(参考訳): 遠隔音声認識のためのマイクロホンのランク付け学習
- Authors: Samuele Cornell, Alessio Brutti, Marco Matassoni, Stefano Squartini
- Abstract要約: 経験的証拠は、最高のマイクを選択できることが認識の大幅な改善につながることを示している。
現在のチャネル選択技術は、信号、デコーダ、または後部ベースの機能に依存します。
ニューラルネットワークをトレーニングして利用可能なチャネルをランク付けする学習用フレームワークであるMicRankを提案する。
- 参考スコア(独自算出の注目度): 16.47293353050145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully exploiting ad-hoc microphone networks for distant speech recognition is
still an open issue. Empirical evidence shows that being able to select the
best microphone leads to significant improvements in recognition without any
additional effort on front-end processing. Current channel selection techniques
either rely on signal, decoder or posterior-based features. Signal-based
features are inexpensive to compute but do not always correlate with
recognition performance. Instead decoder and posterior-based features exhibit
better correlation but require substantial computational resources. In this
work, we tackle the channel selection problem by proposing MicRank, a learning
to rank framework where a neural network is trained to rank the available
channels using directly the recognition performance on the training set. The
proposed approach is agnostic with respect to the array geometry and type of
recognition back-end. We investigate different learning to rank strategies
using a synthetic dataset developed on purpose and the CHiME-6 data. Results
show that the proposed approach is able to considerably improve over previous
selection techniques, reaching comparable and in some instances better
performance than oracle signal-based measures.
- Abstract(参考訳): 遠隔音声認識のためのアドホックマイクロホンネットワークの完全活用は、まだ未解決の問題である。
経験的な証拠は、最高のマイクを選べば、フロントエンド処理に余計な労力を要さずに認識が大幅に向上することを示している。
現在のチャネル選択技術は、信号、デコーダ、または後方ベースの機能に依存している。
信号に基づく機能は計算に安価だが、必ずしも認識性能と相関しない。
代わりにデコーダと後方ベースの機能はより良い相関を示すが、かなりの計算資源を必要とする。
本研究では、ニューラルネットワークがトレーニングセット上での認識性能を直接利用して、利用可能なチャネルのランク付けをトレーニングする学習用フレームワークであるMicRankを提案することにより、チャネル選択の問題に取り組む。
提案手法は,配列幾何と認識バックエンドのタイプに関して不可知である。
目的から開発した合成データセットとchime-6データを用いて,分類戦略の異なる学習方法を検討する。
結果は、提案手法が以前の選択技術よりも大幅に改善され、oracle signalベースの指標よりも性能が向上していることを示している。
関連論文リスト
- Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods [0.6530047924748276]
音声信号処理は、ノイズの多い環境での音声データの明瞭さと理解性を改善する。
音声認識の質は、テクノロジー駆動通信におけるユーザ体験とアクセシビリティに直接影響を及ぼす。
本稿では,高度なクラスタリング手法,特にKFCM(Kernel Fuzzy C-Means)法について検討する。
論文 参考訳(メタデータ) (2024-09-28T20:21:05Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。