論文の概要: Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection
- arxiv url: http://arxiv.org/abs/2005.11777v1
- Date: Sun, 24 May 2020 15:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:34:46.117497
- Title: Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection
- Title(参考訳): コードスイッチによる音声単語検出のための音声単語埋め込みシステム
- Authors: Murong Ma, Haiwei Wu, Xuyang Wang, Lin Yang, Junjie Wang and Ming Li
- Abstract要約: 本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
- 参考スコア(独自算出の注目度): 17.54377669932433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a deep convolutional neural network-based acoustic
word embedding system on code-switching query by example spoken term detection.
Different from previous configurations, we combine audio data in two languages
for training instead of only using one single language. We transform the
acoustic features of keyword templates and searching content to
fixed-dimensional vectors and calculate the distances between keyword segments
and searching content segments obtained in a sliding manner. An auxiliary
variability-invariant loss is also applied to training data within the same
word but different speakers. This strategy is used to prevent the extractor
from encoding undesired speaker- or accent-related information into the
acoustic word embeddings. Experimental results show that our proposed system
produces promising searching results in the code-switching test scenario. With
the increased number of templates and the employment of variability-invariant
loss, the searching performance is further enhanced.
- Abstract(参考訳): 本稿では,音声単語のサンプル検出によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
従来の構成と異なり、1つの言語のみを使用するのではなく、2つの言語でオーディオデータを組み合わせてトレーニングする。
我々は,キーワードテンプレートと検索コンテンツの音響特性を固定次元ベクトルに変換し,スライディングで得られたキーワードセグメントと検索コンテンツセグメント間の距離を算出する。
また、同じ単語の異なる話者のトレーニングデータにも、補助変数不変損失が適用される。
この戦略は、抽出器が望ましくない話者またはアクセント関連情報を音響単語の埋め込みに符号化することを防止するために用いられる。
実験の結果,提案システムでは,コードスイッチングテストシナリオにおいて有望な検索結果が得られた。
テンプレートの数の増加と可変不変損失の利用により、探索性能はさらに向上する。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting [23.627625026135505]
本稿では,ユーザ定義キーワードスポッティング手法を提案する。
提案手法は,入力クエリをテキストキーワードシーケンスと比較する。
本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
論文 参考訳(メタデータ) (2022-06-30T16:40:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Acoustic Neighbor Embeddings [2.842794675894731]
本稿では,アコースティック・ニーバー・エンベディングと呼ばれる新しい音響単語の埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
認識精度は従来の有限状態トランスデューサ(FST)ベースのデコードと同一であり、語彙で最大100万名、埋め込みで40次元の試験データを使用する。
論文 参考訳(メタデータ) (2020-07-20T05:33:07Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。