論文の概要: Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding
- arxiv url: http://arxiv.org/abs/2308.06472v1
- Date: Sat, 12 Aug 2023 05:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:02:07.648605
- Title: Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding
- Title(参考訳): 均一な音声テキスト埋め込みに基づくフレキシブルキーワードスポッティング
- Authors: Kumari Nishu, Minsik Cho, Paul Dixon, Devang Naik
- Abstract要約: 音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
- 参考スコア(独自算出の注目度): 5.697227044927832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spotting user-defined/flexible keywords represented in text frequently uses
an expensive text encoder for joint analysis with an audio encoder in an
embedding space, which can suffer from heterogeneous modality representation
(i.e., large mismatch) and increased complexity. In this work, we propose a
novel architecture to efficiently detect arbitrary keywords based on an
audio-compliant text encoder which inherently has homogeneous representation
with audio embedding, and it is also much smaller than a compatible text
encoder. Our text encoder converts the text to phonemes using a
grapheme-to-phoneme (G2P) model, and then to an embedding using representative
phoneme vectors, extracted from the paired audio encoder on rich speech
datasets. We further augment our method with confusable keyword generation to
develop an audio-text embedding verifier with strong discriminative power.
Experimental results show that our scheme outperforms the state-of-the-art
results on Libriphrase hard dataset, increasing Area Under the ROC Curve (AUC)
metric from 84.21% to 92.7% and reducing Equal-Error-Rate (EER) metric from
23.36% to 14.4%.
- Abstract(参考訳): テキストで表されるユーザ定義/フレキシブルなキーワードのスポッティングは、埋め込み空間におけるオーディオエンコーダとの共同解析に高価なテキストエンコーダを頻繁に使用し、不均一なモダリティ表現(すなわち大きなミスマッチ)と複雑さの増大に悩まされる。
そこで本研究では,オーディオエンコーダに対して,音声エンコーダと等価な表現を持つ音声エンコーダに基づいて,任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは、grapheme-to-phoneme(g2p)モデルを用いてテキストを音素に変換し、リッチ音声データセット上でペア音声エンコーダから抽出した代表音素ベクトルを用いて埋め込みを行う。
また,この手法をさらに拡張し,強力な識別能力を有する音声テキスト埋め込み検証器を開発する。
実験結果から,この手法はリブリフラーゼ硬度データセットの最先端結果,ROC曲線(AUC)の面積が84.21%から92.7%に増加し,EER(Equal-Error-Rate)の面積が23.36%から14.4%に減少した。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Matching Latent Encoding for Audio-Text based Keyword Spotting [9.599402723927733]
フレキシブルキーワードスポッティング(KWS)のための音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。
我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。
実験の結果,DSPは他のパーティショニング方式よりも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-08T14:44:23Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。