論文の概要: Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting
- arxiv url: http://arxiv.org/abs/2206.15400v2
- Date: Fri, 1 Jul 2022 06:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 10:37:23.944872
- Title: Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting
- Title(参考訳): オープンボキャブラリーキーワードスポッティングのための音声テキスト合意の学習
- Authors: Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung and Hong-Goo
Kang
- Abstract要約: 本稿では,ユーザ定義キーワードスポッティング手法を提案する。
提案手法は,入力クエリをテキストキーワードシーケンスと比較する。
本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
- 参考スコア(独自算出の注目度): 23.627625026135505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel end-to-end user-defined keyword spotting
method that utilizes linguistically corresponding patterns between speech and
text sequences. Unlike previous approaches requiring speech keyword enrollment,
our method compares input queries with an enrolled text keyword sequence. To
place the audio and text representations within a common latent space, we adopt
an attention-based cross-modal matching approach that is trained in an
end-to-end manner with monotonic matching loss and keyword classification loss.
We also utilize a de-noising loss for the acoustic embedding network to improve
robustness in noisy environments. Additionally, we introduce the LibriPhrase
dataset, a new short-phrase dataset based on LibriSpeech for efficiently
training keyword spotting models. Our proposed method achieves competitive
results on various evaluation sets compared to other single-modal and
cross-modal baselines.
- Abstract(参考訳): 本稿では,音声とテキストシーケンス間の言語対応パターンを利用した,エンド・ツー・エンドのキーワードスポッティング手法を提案する。
従来の音声キーワード入力手法とは異なり,提案手法では入力クエリとテキストキーワードシーケンスを比較した。
音声とテキストの表現を共通の潜在空間に配置するために,単調なマッチング損失とキーワード分類損失を伴い,エンドツーエンドで訓練された注目型クロスモーダルマッチングアプローチを採用する。
また,雑音環境におけるロバスト性を改善するために,音響埋め込みネットワークにおけるノイズ除去損失を利用する。
さらに,キーワードスポッティングモデルを効率的に学習するためのlibriphraseデータセットであるlibriphraseデータセットを提案する。
提案手法は他のシングルモーダルベースラインおよびクロスモーダルベースラインと比較して様々な評価セットで競合結果を得る。
関連論文リスト
- CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。
提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。
次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文 参考訳(メタデータ) (2024-06-12T06:44:40Z) - Relational Proxy Loss for Audio-Text based Keyword Spotting [8.932603220365793]
本研究の目的は, 構造的音響埋め込みとテキスト埋め込みの活用による既存手法の改善である。
RPLを組み込むことで,ウォールストリートジャーナル(WSJ)コーパスの性能向上を実証した。
論文 参考訳(メタデータ) (2024-06-08T01:21:17Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。