論文の概要: Improving Device Directedness Classification of Utterances with Semantic
Lexical Features
- arxiv url: http://arxiv.org/abs/2010.01949v1
- Date: Tue, 29 Sep 2020 20:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:54:27.378639
- Title: Improving Device Directedness Classification of Utterances with Semantic
Lexical Features
- Title(参考訳): セマンティック語彙特徴を用いた発話のデバイス指向性分類の改善
- Authors: Kellen Gillespie, Ioannis C. Konstantakopoulos, Xingzhi Guo, Vishal
Thanvantri Vasudevan, Abhinav Sethy
- Abstract要約: 意味論的特徴と軽量音響特徴を組み合わせた指向性分類器を提案する。
混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。
- 参考スコア(独自算出の注目度): 9.43023411463796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User interactions with personal assistants like Alexa, Google Home and Siri
are typically initiated by a wake term or wakeword. Several personal assistants
feature "follow-up" modes that allow users to make additional interactions
without the need of a wakeword. For the system to only respond when
appropriate, and to ignore speech not intended for it, utterances must be
classified as device-directed or non-device-directed. State-of-the-art systems
have largely used acoustic features for this task, while others have used only
lexical features or have added LM-based lexical features. We propose a
directedness classifier that combines semantic lexical features with a
lightweight acoustic feature and show it is effective in classifying
directedness. The mixed-domain lexical and acoustic feature model is able to
achieve 14% relative reduction of EER over a state-of-the-art acoustic-only
baseline model. Finally, we successfully apply transfer learning and
semi-supervised learning to the model to improve accuracy even further.
- Abstract(参考訳): Alexa、Google Home、Siriといったパーソナルアシスタントとのユーザーインタラクションは通常、ウェイクワードまたはウェイクワードによって開始される。
いくつかのパーソナルアシスタントには「フォローアップ」モードがあり、ウェイクワードを必要とせずに追加の対話ができる。
システムは適切な場合にのみ応答し、意図しない発話を無視するためには、発話をデバイス指向または非デバイス指向に分類する必要がある。
最先端のシステムは、このタスクに音響的特徴を主に用いているが、他のシステムでは、語彙的特徴のみを使用したり、LMベースの語彙的特徴を追加したりしている。
意味論的特徴と軽量な音響特徴を組み合わせた有向性分類器を提案し,有向性分類に有効であることを示す。
混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。
最後に,移動学習と半教師付き学習をモデルに適用し,精度をさらに向上する。
関連論文リスト
- Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - LipLearner: Customizable Silent Speech Interactions on Mobile Devices [15.445920726854595]
コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。
本モデルでは, 照明, 姿勢, ジェスチャー条件に高いロバスト性を示す。
ユーザスタディでは、LipLearnerを使うことで、オンラインのインクリメンタル学習スキームによって保証された高い信頼性で、独自のコマンドを定義できるようになった。
論文 参考訳(メタデータ) (2023-02-12T13:10:57Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。