論文の概要: Matching Latent Encoding for Audio-Text based Keyword Spotting
- arxiv url: http://arxiv.org/abs/2306.05245v1
- Date: Thu, 8 Jun 2023 14:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:55:48.565374
- Title: Matching Latent Encoding for Audio-Text based Keyword Spotting
- Title(参考訳): 音声テキストに基づくキーワードスポッティングのためのマッチング潜時符号化
- Authors: Kumari Nishu, Minsik Cho, Devang Naik
- Abstract要約: フレキシブルキーワードスポッティング(KWS)のための音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。
我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。
実験の結果,DSPは他のパーティショニング方式よりも有効であることがわかった。
- 参考スコア(独自算出の注目度): 9.599402723927733
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using audio and text embeddings jointly for Keyword Spotting (KWS) has shown
high-quality results, but the key challenge of how to semantically align two
embeddings for multi-word keywords of different sequence lengths remains
largely unsolved. In this paper, we propose an audio-text-based end-to-end
model architecture for flexible keyword spotting (KWS), which builds upon
learned audio and text embeddings. Our architecture uses a novel dynamic
programming-based algorithm, Dynamic Sequence Partitioning (DSP), to optimally
partition the audio sequence into the same length as the word-based text
sequence using the monotonic alignment of spoken content. Our proposed model
consists of an encoder block to get audio and text embeddings, a projector
block to project individual embeddings to a common latent space, and an
audio-text aligner containing a novel DSP algorithm, which aligns the audio and
text embeddings to determine if the spoken content is the same as the text.
Experimental results show that our DSP is more effective than other
partitioning schemes, and the proposed architecture outperformed the
state-of-the-art results on the public dataset in terms of Area Under the ROC
Curve (AUC) and Equal-Error-Rate (EER) by 14.4 % and 28.9%, respectively.
- Abstract(参考訳): キーワードスポッティング(KWS)に音声とテキストの埋め込みを併用すると、高品質な結果が得られるが、シーケンス長の異なる複数ワードキーワードに対して2つの埋め込みを意味的に整合させるという重要な課題はほとんど解決されていない。
本稿では,学習音声とテキストの埋め込みに基づくフレキシブルキーワードスポッティング(KWS)のための,音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。
我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声コンテンツの単調アライメントを用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。
提案モデルは,音声とテキストの埋め込みを得るエンコーダブロックと,個々の埋め込みを共通の潜在空間に投影するプロジェクタブロックと,音声とテキストの埋め込みを整合させ,音声コンテンツがテキストと同一かどうかを判定する新しいdspアルゴリズムを含むオーディオテキストアライナーで構成されている。
実験の結果, DSPは他の分割方式よりも有効であることが示され, 提案したアーキテクチャは, ROC曲線(AUC)とEER(Equal-Error-Rate)をそれぞれ14.4%, 28.9%向上させた。
関連論文リスト
- Towards Robust Audiovisual Segmentation in Complex Environments with
Quantization-based Semantic Decomposition [49.465783009753885]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2023-08-12T05:41:15Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。