論文の概要: Computing Optimal Location of Microphone for Improved Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.13259v1
- Date: Thu, 24 Mar 2022 14:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 03:19:19.938095
- Title: Computing Optimal Location of Microphone for Improved Speech Recognition
- Title(参考訳): 音声認識改善のためのマイクロホンの最適位置計算
- Authors: Karan Nathwani and Bhavya Dixit and Sunil Kumar Kopparapu
- Abstract要約: マイクロホンの最適位置は,3次元空間におけるマイクロホンの正確な位置を推定し,その位置を推定する。
クリーンで騒々しい音声を用いて実験を行い、マイクロホンの最適位置がユニークでノイズの影響を受けていることを示す。
- 参考スコア(独自算出の注目度): 15.6724888625744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It was shown in our earlier work that the measurement error in the microphone
position affected the room impulse response (RIR) which in turn affected the
single-channel close microphone and multi-channel distant microphone speech
recognition. In this paper, as an extension, we systematically study to
identify the optimal location of the microphone, given an approximate and hence
erroneous location of the microphone in 3D space. The primary idea is to use
Monte-Carlo technique to generate a large number of random microphone positions
around the erroneous microphone position and select the microphone position
that results in the best performance of a general purpose automatic speech
recognition (gp-asr). We experiment with clean and noisy speech and show that
the optimal location of the microphone is unique and is affected by noise.
- Abstract(参考訳): 先行研究では、マイクロホン位置の測定誤差が部屋インパルス応答(rir)に影響を与え、それによってシングルチャネル近接マイクロホンとマルチチャネル遠方マイクロホン音声認識に影響を及ぼすことを示した。
本稿では, マイクロホンの最適位置を3次元空間内において近似的かつ誤検出することにより, マイクロホンの最適位置の同定を系統的に研究する。
第一のアイデアはモンテカルロ法を用いて、誤ったマイクロホン位置の周囲に多数のランダムなマイクロホン位置を生成し、汎用自動音声認識(gp-asr)の最高の性能をもたらすマイクロホン位置を選択することである。
クリーンで騒々しい音声を用いて実験を行い、マイクロホンの最適位置がユニークでノイズの影響を受けていることを示す。
関連論文リスト
- wav2pos: Sound Source Localization using Masked Autoencoders [12.306126455995603]
本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-28T13:09:20Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - Scaling sparsemax based channel selection for speech recognition with
ad-hoc microphone arrays [8.805048866677518]
本稿では,大規模アドホックマイクロホンアレイを用いた音声認識のチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。
コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling SparsemaxはSoftmaxよりも30%以上低い単語誤り率を示す。
論文 参考訳(メタデータ) (2021-03-29T03:24:05Z) - Neural Network-based Virtual Microphone Estimator [111.79608275698274]
ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
CHiME-4コーパスの実験結果から,提案したNN-VMEは実録音においても高い仮想マイクロホン推定性能が得られることが示された。
論文 参考訳(メタデータ) (2021-01-12T06:30:24Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Utterance-Wise Meeting Transcription System Using Asynchronous
Distributed Microphones [27.07568513025875]
本稿では,非同期マイクロホンを用いた新しい音声書き起こしフレームワークを提案する。
音声同期、話者ダイアリゼーション、誘導音源分離を用いた発話音声強調、自動音声認識、重複低減で構成されている。
論文 参考訳(メタデータ) (2020-07-31T06:50:04Z) - Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework [54.194340961353944]
マイクロビデオ人気タスクのためのマルチモーダル変分エンコーダ・デコーダフレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの埋め込みを学習する。
Xiguaから収集した公開データセットとデータセットで実施された実験は、提案したMMVEDフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-28T06:08:16Z) - Mic2Mic: Using Cycle-Consistent Generative Adversarial Networks to
Overcome Microphone Variability in Speech Systems [21.60701279013914]
我々は,Mic2Micを提案する。Mic2Micは機械学習システムコンポーネントで,音声モデルの推論パイプラインに留まり,マイクロホン固有の要因による音声データの変動をリアルタイムで低減する。
実験の結果、Mic2Micは2つの一般的な音声タスクにおいて、マイクロホンの可変性によって失われる精度の66%から89%を回復できることがわかった。
論文 参考訳(メタデータ) (2020-03-27T14:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。