論文の概要: End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients
- arxiv url: http://arxiv.org/abs/2405.14489v1
- Date: Thu, 23 May 2024 12:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:15:02.605480
- Title: End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients
- Title(参考訳): シフトデルタ係数を用いたエンド・ツー・エンドのユーザ定義キーワードスポッティング
- Authors: Kesavaraj V, Anuprabha M, Anil Kumar Vuppala,
- Abstract要約: そこで本研究では,発音の変動を捉えるのに役立つシフトデルタ係数(SDC)を提案する。
提案手法は最先端のUDKWS技術と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.626696929949397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying user-defined keywords is crucial for personalizing interactions with smart devices. Previous approaches of user-defined keyword spotting (UDKWS) have relied on short-term spectral features such as mel frequency cepstral coefficients (MFCC) to detect the spoken keyword. However, these features may face challenges in accurately identifying closely related pronunciation of audio-text pairs, due to their limited capability in capturing the temporal dynamics of the speech signal. To address this challenge, we propose to use shifted delta coefficients (SDC) which help in capturing pronunciation variability (transition between connecting phonemes) by incorporating long-term temporal information. The performance of the SDC feature is compared with various baseline features across four different datasets using a cross-attention based end-to-end system. Additionally, various configurations of SDC are explored to find the suitable temporal context for the UDKWS task. The experimental results reveal that the SDC feature outperforms the MFCC baseline feature, exhibiting an improvement of 8.32% in area under the curve (AUC) and 8.69% in terms of equal error rate (EER) on the challenging Libriphrase-hard dataset. Moreover, the proposed approach demonstrated superior performance when compared to state-of-the-art UDKWS techniques.
- Abstract(参考訳): スマートデバイスとのインタラクションをパーソナライズするには,ユーザ定義キーワードの識別が不可欠だ。
ユーザ定義キーワードスポッティング(UDKWS)の従来のアプローチは、音声キーワードを検出するために、メル周波数ケプストラム係数(MFCC)のような短期スペクトル特性に依存していた。
しかし、これらの特徴は、音声信号の時間的ダイナミクスを捉える能力に制限があるため、音声とテキストのペアの発音を正確に識別する上で困難となる可能性がある。
この課題に対処するため,長期時間情報を組み込むことで発音変化(音素間の遷移)の把握を支援するシフトデルタ係数(SDC)を提案する。
SDC機能のパフォーマンスは、クロスアテンションベースのエンドツーエンドシステムを使用して、4つの異なるデータセットのさまざまなベースライン機能と比較される。
さらに、UDKWSタスクに適した時間的コンテキストを見つけるために、SDCの様々な構成を探索する。
実験結果によると、SDC機能はMFCCのベースライン機能より優れており、曲線下(AUC)では8.32%、挑戦的なLibriphrase-hardデータセットでは8.69%の改善が見られた。
さらに,提案手法は最先端のUDKWS技術と比較して優れた性能を示した。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Spatial-Temporal Cross-View Contrastive Pre-training for Check-in Sequence Representation Learning [21.580705078081078]
本稿では,チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト表現(ST CCR)フレームワークを提案する。
ST CCRは「空間的話題」と「時間的意図」の視点から自己スーパービジョンを採用し、意味レベルでの空間的情報と時間的情報の効果的な融合を促進する。
実世界の3つのデータセット上でST CCRを広範囲に評価し、3つの下流タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T10:20:34Z) - Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum [13.81570624162769]
グラフスペクトルに基づくマルチモーダル一貫性と相補的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCは、対話関係をモデル化するマルチモーダル相互作用グラフを構築するためにスライディングウィンドウを使用する。
そして、GS-MCCはコントラスト学習を用いて、相補性と一貫性のあるセマンティック・コラボレーションを反映した自己教師付き信号を構築する。
論文 参考訳(メタデータ) (2024-04-27T10:47:07Z) - Modality Dropout for Multimodal Device Directed Speech Detection using
Verbal and Non-Verbal Features [11.212228410835435]
デバイス指向音声検出(DDSD)のための言語的手がかりに加えて,非言語的手がかり,特に韻律的特徴の使用について検討した。
本研究は,韻律からのスコアと埋め込みを対応する動詞の手がかりと組み合わせることで,韻律が偽受容率(FA)において最大8.5%向上することが確認された。
モーダリティ・ドロップアウト手法を用いることで,推論時間におけるモダリティの欠如を評価した場合,これらのモデルの性能は,FAの観点から7.4%向上する。
論文 参考訳(メタデータ) (2023-10-23T18:09:31Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。