論文の概要: Modality Dropout for Multimodal Device Directed Speech Detection using
Verbal and Non-Verbal Features
- arxiv url: http://arxiv.org/abs/2310.15261v1
- Date: Mon, 23 Oct 2023 18:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:24:29.187367
- Title: Modality Dropout for Multimodal Device Directed Speech Detection using
Verbal and Non-Verbal Features
- Title(参考訳): 言語的・非言語的特徴を用いたマルチモーダルデバイス指向音声検出のためのモーダリティドロップアウト
- Authors: Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh
Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
- Abstract要約: デバイス指向音声検出(DDSD)のための言語的手がかりに加えて,非言語的手がかり,特に韻律的特徴の使用について検討した。
本研究は,韻律からのスコアと埋め込みを対応する動詞の手がかりと組み合わせることで,韻律が偽受容率(FA)において最大8.5%向上することが確認された。
モーダリティ・ドロップアウト手法を用いることで,推論時間におけるモダリティの欠如を評価した場合,これらのモデルの性能は,FAの観点から7.4%向上する。
- 参考スコア(独自算出の注目度): 11.212228410835435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Device-directed speech detection (DDSD) is the binary classification task of
distinguishing between queries directed at a voice assistant versus side
conversation or background speech. State-of-the-art DDSD systems use verbal
cues, e.g acoustic, text and/or automatic speech recognition system (ASR)
features, to classify speech as device-directed or otherwise, and often have to
contend with one or more of these modalities being unavailable when deployed in
real-world settings. In this paper, we investigate fusion schemes for DDSD
systems that can be made more robust to missing modalities. Concurrently, we
study the use of non-verbal cues, specifically prosody features, in addition to
verbal cues for DDSD. We present different approaches to combine scores and
embeddings from prosody with the corresponding verbal cues, finding that
prosody improves DDSD performance by upto 8.5% in terms of false acceptance
rate (FA) at a given fixed operating point via non-linear intermediate fusion,
while our use of modality dropout techniques improves the performance of these
models by 7.4% in terms of FA when evaluated with missing modalities during
inference time.
- Abstract(参考訳): DDSD(Device-directed Speech Detection)は、音声アシスタントに向けられたクエリと、サイド会話やバックグラウンドスピーチを区別するバイナリ分類タスクである。
最先端のddsdシステムは、音声、テキスト、および/または自動音声認識システム(asr)機能のような言語的手がかりを使用して、音声をデバイス指向またはその他の分類し、現実の設定でデプロイされた場合、これらのモダリティのうち1つ以上は使用できないとしばしば競合する。
本稿では,ddsdシステムにおいて,欠落したモードに対してよりロバストにするための融合スキームについて検討する。
同時に,DDSDの言語的手がかりに加えて,非言語的手がかり(特に韻律的特徴)の使用について検討した。
提案手法は,非線形中間核融合による固定手術点における偽受入率(FA)において,韻律のスコアと埋め込みを対応する動詞の手がかりと組み合わせて最大8.5%向上させるとともに,モーダリティ・ドロップアウト手法を用いることで,推論時間中のモダリティの欠如を評価した場合において,これらのモデルの性能を7.4%向上させる。
関連論文リスト
- End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients [6.626696929949397]
そこで本研究では,発音の変動を捉えるのに役立つシフトデルタ係数(SDC)を提案する。
提案手法は最先端のUDKWS技術と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-23T12:24:01Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - Improved far-field speech recognition using Joint Variational
Autoencoder [5.320201231911981]
Denoising Autoencoder (DA) を用いた遠距離場から近距離空間への音声特徴のマッピングを提案する。
具体的には,単語誤り率(WER)の絶対的な改善は,DAに基づく拡張に比べて2.5%,遠距離フィルタバンクで直接訓練されたAMに比べて3.96%であった。
論文 参考訳(メタデータ) (2022-04-24T14:14:04Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。