論文の概要: Do You Listen with One or Two Microphones? A Unified ASR Model for
Single and Multi-Channel Audio
- arxiv url: http://arxiv.org/abs/2106.02750v1
- Date: Fri, 4 Jun 2021 22:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:45:16.488602
- Title: Do You Listen with One or Two Microphones? A Unified ASR Model for
Single and Multi-Channel Audio
- Title(参考訳): 1つか2つのマイクで聴くか?
シングルチャンネル・マルチチャンネルオーディオのための統一ASRモデル
- Authors: Gokce Keskin, Minhua Wu, Brian King, Harish Mallidi, Yang Gao, \\Jasha
Droppo, Ariya Rastrow, Roland Maas
- Abstract要約: 本稿では,テキストプライマリオンリー(PO)モードとPPAモードの両方に対応可能な統合ASRモデルを提案する。
我々は,1つのデバイスが1つの一次オーディオチャンネルをストリームする現実的なシナリオにおいて,その効果を実証する。
- 参考スコア(独自算出の注目度): 20.932685675759117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) models are typically designed to operate
on a single input data type, e.g. a single or multi-channel audio streamed from
a device. This design decision assumes the \textit{primary} input data source
does not change and if an additional (\textit{auxiliary}) data source is
occasionally available, it cannot be used. An ASR model that operates on both
primary and auxiliary data can achieve better accuracy compared to a
primary-only solution; and a model that can serve both \textit{primary-only}
(PO) and \textit{primary-plus-auxiliary} (PPA) modes is highly desirable. In
this work, we propose a unified ASR model that can serve both modes. We
demonstrate its efficacy in a realistic scenario where a set of devices
typically stream a single primary audio channel, and two additional auxiliary
channels \textit{only when} upload bandwidth allows it. The architecture
enables a unique methodology that uses both types of input audio during
training time. Our proposed approach achieves up to 12.5\% relative
word-error-rate reduction (WERR) compared to a PO baseline, and up to 16.0\%
relative WERR in low-SNR conditions. The unique training methodology achieves
up to 2.5\% relative WERR compared to a PPA baseline.
- Abstract(参考訳): 自動音声認識(ASR)モデルは通常、単一の入力データタイプ、例えば、操作するために設計されている。
デバイスからストリーミングされるシングルまたはマルチチャンネルオーディオ。
この設計決定は、 \textit{primary}入力データソースが変更されず、追加の(\textit{auxiliary})データソースが時々利用可能である場合、使用できないと仮定する。
プライマリデータと補助データの両方で動作するASRモデルは、プライマリオンリーのソリューションと比較して精度が良く、また、 \textit{primary-only} (PO) と \textit{primary-plus-auxiliary} (PPA) モードの両方を機能させることができるモデルは非常に望ましい。
本研究では,両モードに対応可能な統合ASRモデルを提案する。
我々は、デバイスセットが通常1つの一次オーディオチャンネルをストリーミングし、2つの追加の補助チャンネルがアップロード帯域幅を許可する現実的なシナリオでその効果を実証する。
このアーキテクチャは、トレーニング中に両方の入力オーディオを使用するユニークな方法論を可能にする。
提案手法は,poベースラインと比較して最大12.5\%,低snr条件で最大16.0\%の単語誤り率低減(werr)を実現する。
ユニークなトレーニング手法は、PPAベースラインと比較して2.5\%の相対WERRを達成する。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Adapting an Unadaptable ASR System [40.402050390096456]
我々は、最近リリースされたOpenAI Whisper ASRを、適応手法を評価するための大規模ASRシステムの例と考えている。
モデルへのアクセスを必要としないため、誤り訂正に基づくアプローチが採用されている。
次に、2つの異なる次元におけるシステムの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-01T23:54:11Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Cross-Modal Transformer-Based Neural Correction Models for Automatic
Speech Recognition [31.2558640840697]
自動音声認識システムの出力を改良するクロスモーダルトランスフォーマーに基づくニューラル補正モデルを提案する。
日本語のASR課題に対する実験により,提案したモデルが従来のニューラル補正モデルよりも優れたASR性能を達成できることが実証された。
論文 参考訳(メタデータ) (2021-07-04T07:58:31Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。