論文の概要: Spoken Term Detection and Relevance Score Estimation using Dot-Product
of Pronunciation Embeddings
- arxiv url: http://arxiv.org/abs/2210.11895v1
- Date: Fri, 21 Oct 2022 11:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:56:33.084338
- Title: Spoken Term Detection and Relevance Score Estimation using Dot-Product
of Pronunciation Embeddings
- Title(参考訳): Dot-Product of Pronunciation Embeddings を用いたスポット項の検出と関連スコア推定
- Authors: Jan \v{S}vec, Lubo\v{s} \v{S}m\'idl, Josef V. Psutka, Ale\v{s}
Pra\v{z}\'ak
- Abstract要約: 本稿では,深層LSTMネットワークを用いた大規模音声アーカイブにおける音声用語検出(STD)に対する新しいアプローチについて述べる。
深層LSTMネットワークは、単語と音素レベルのペア認識仮説から自己教師型で訓練される。
本手法は,英語およびチェコ語におけるMALACHデータを用いて実験的に評価した。
- 参考スコア(独自算出の注目度): 0.9653976364051563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The paper describes a novel approach to Spoken Term Detection (STD) in large
spoken archives using deep LSTM networks. The work is based on the previous
approach of using Siamese neural networks for STD and naturally extends it to
directly localize a spoken term and estimate its relevance score. The phoneme
confusion network generated by a phoneme recognizer is processed by the deep
LSTM network which projects each segment of the confusion network into an
embedding space. The searched term is projected into the same embedding space
using another deep LSTM network. The relevance score is then computed using a
simple dot-product in the embedding space and calibrated using a sigmoid
function to predict the probability of occurrence. The location of the searched
term is then estimated from the sequence of output probabilities. The deep LSTM
networks are trained in a self-supervised manner from paired recognition
hypotheses on word and phoneme levels. The method is experimentally evaluated
on MALACH data in English and Czech languages.
- Abstract(参考訳): 本稿では,深層LSTMネットワークを用いた大規模音声アーカイブにおける音声用語検出(STD)に対する新しいアプローチについて述べる。
この研究は、SameseのニューラルネットワークをSTDに使用し、それを自然に拡張して、話し言葉を直接ローカライズし、その関連性スコアを推定する以前のアプローチに基づいている。
音素認識器によって生成された音素混乱ネットワークは、混乱ネットワークの各セグメントを埋め込み空間に投影する深部LSTMネットワークによって処理される。
探索項は別の深層LSTMネットワークを用いて同じ埋め込み空間に投影される。
関連スコアは、埋め込み空間の単純なドット積を用いて計算され、シグモイド関数を用いて校正され、発生確率を予測する。
探索された項の位置は、出力確率の列から推定される。
深層LSTMネットワークは、単語と音素レベルのペア認識仮説から自己教師型で訓練される。
本手法は英語およびチェコ語におけるMALACHデータを用いて実験的に評価される。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Semantics Alignment via Split Learning for Resilient Multi-User Semantic
Communication [56.54422521327698]
最近の意味コミュニケーションの研究は、ディープジョイントソースやチャネルコーディング(DeepJSCC)のようなニューラルネットワーク(NN)ベースのトランシーバに依存している。
従来のトランシーバとは異なり、これらのニューラルトランシーバは実際のソースデータとチャネルを使用してトレーニング可能であり、セマンティクスを抽出し通信することができる。
本稿では,分割学習(SL)と部分的NN微調整技術を活用する分散学習ベースソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-13T20:29:55Z) - HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words [8.518479417031775]
ストリーミングキーワードスポッティングは、音声アシスタントを活性化するための広く使われているソリューションである。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T17:26:57Z) - Deep LSTM Spoken Term Detection using Wav2Vec 2.0 Recognizer [0.0]
本稿では,DNN-HMMハイブリッドASRの従来の発音語彙に含まれる知識を,グラフベースのWav2Vecの文脈に転送するブートストラップ手法について述べる。
提案手法は、DNN-HMMハイブリッドASRと音素認識器の組み合わせにより、英語とチェコ語の両方のMALACHデータに対する大きなマージンで、これまで公表されていたシステムより優れている。
論文 参考訳(メタデータ) (2022-10-21T11:26:59Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z) - Acoustic Neighbor Embeddings [2.842794675894731]
本稿では,アコースティック・ニーバー・エンベディングと呼ばれる新しい音響単語の埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
認識精度は従来の有限状態トランスデューサ(FST)ベースのデコードと同一であり、語彙で最大100万名、埋め込みで40次元の試験データを使用する。
論文 参考訳(メタデータ) (2020-07-20T05:33:07Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。