論文の概要: Acoustic Neighbor Embeddings
- arxiv url: http://arxiv.org/abs/2007.10329v5
- Date: Thu, 6 Jan 2022 23:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:23:20.798869
- Title: Acoustic Neighbor Embeddings
- Title(参考訳): 音響隣の埋め込み
- Authors: Woojay Jeon
- Abstract要約: 本稿では,アコースティック・ニーバー・エンベディングと呼ばれる新しい音響単語の埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
認識精度は従来の有限状態トランスデューサ(FST)ベースのデコードと同一であり、語彙で最大100万名、埋め込みで40次元の試験データを使用する。
- 参考スコア(独自算出の注目度): 2.842794675894731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel acoustic word embedding called Acoustic Neighbor
Embeddings where speech or text of arbitrary length are mapped to a vector
space of fixed, reduced dimensions by adapting stochastic neighbor embedding
(SNE) to sequential inputs. The Euclidean distance between coordinates in the
embedding space reflects the phonetic confusability between their corresponding
sequences. Two encoder neural networks are trained: an acoustic encoder that
accepts speech signals in the form of frame-wise subword posterior
probabilities obtained from an acoustic model and a text encoder that accepts
text in the form of subword transcriptions. Compared to a triplet loss
criterion, the proposed method is shown to have more effective gradients for
neural network training. Experimentally, it also gives more accurate results
with low-dimensional embeddings when the two encoder networks are used in
tandem in a word (name) recognition task, and when the text encoder network is
used standalone in an approximate phonetic matching task. In particular, in an
isolated name recognition task depending solely on Euclidean nearest-neighbor
search between the proposed embedding vectors, the recognition accuracy is
identical to that of conventional finite state transducer(FST)-based decoding
using test data with up to 1 million names in the vocabulary and 40 dimensions
in the embeddings.
- Abstract(参考訳): 本稿では,任意の長さの音声やテキストを,確率的隣接埋め込み(SNE)を逐次入力に適応させることにより,固定次元のベクトル空間にマッピングする,Austic Neighbor Embeddingsと呼ばれる新しい音響単語埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
2つのエンコーダニューラルネットワークを訓練する:音響モデルから得られるフレーム毎のサブワード後方確率の形で音声信号を受け入れる音響エンコーダと、サブワード転写の形でテキストを受け入れるテキストエンコーダである。
三重項損失基準と比較すると,提案手法はニューラルネットワークトレーニングにおいてより効果的な勾配を持つことが示された。
また、2つのエンコーダネットワークを単語(名前)認識タスクでタンデムで使用する場合や、テキストエンコーダネットワークを近似音声マッチングタスクでスタンドアロンで使用する場合においても、低次元埋め込みによるより正確な結果が得られる。
特に、提案する埋め込みベクトル間のユークリッド最寄り探索のみに依存する孤立名称認識タスクにおいて、認識精度は従来の有限状態トランスデューサ(fst)に基づく復号化と同一であり、語彙100万名、埋め込み40次元の試験データを用いる。
関連論文リスト
- Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2023-08-12T05:41:15Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。