論文の概要: Analyzing autoencoder-based acoustic word embeddings
- arxiv url: http://arxiv.org/abs/2004.01647v1
- Date: Fri, 3 Apr 2020 16:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:28:21.057884
- Title: Analyzing autoencoder-based acoustic word embeddings
- Title(参考訳): オートエンコーダに基づく音響単語埋め込みの解析
- Authors: Yevgen Matusevych, Herman Kamper, Sharon Goldwater
- Abstract要約: 音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
- 参考スコア(独自算出の注目度): 37.78342106714364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have introduced methods for learning acoustic word embeddings
(AWEs)---fixed-size vector representations of words which encode their acoustic
features. Despite the widespread use of AWEs in speech processing research,
they have only been evaluated quantitatively in their ability to discriminate
between whole word tokens. To better understand the applications of AWEs in
various downstream tasks and in cognitive modeling, we need to analyze the
representation spaces of AWEs. Here we analyze basic properties of AWE spaces
learned by a sequence-to-sequence encoder-decoder model in six typologically
diverse languages. We first show that these AWEs preserve some information
about words' absolute duration and speaker. At the same time, the
representation space of these AWEs is organized such that the distance between
words' embeddings increases with those words' phonetic dissimilarity. Finally,
the AWEs exhibit a word onset bias, similar to patterns reported in various
studies on human speech processing and lexical access. We argue this is a
promising result and encourage further evaluation of AWEs as a potentially
useful tool in cognitive science, which could provide a link between speech
processing and lexical memory.
- Abstract(参考訳): 近年,音響的特徴を符号化した単語のAWE(-fixed-size vector representations)を学習する手法が提案されている。
音声処理研究においてawesが広く使われているにもかかわらず、単語トークン全体を識別する能力において定量的に評価されているだけである。
様々な下流タスクや認知モデルにおけるAWEの応用をよりよく理解するためには,AWEの表現空間を解析する必要がある。
ここでは,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルを用いて学習したAWE空間の基本特性を解析する。
まず,単語の絶対継続時間と話者に関する情報を保存できることを示す。
同時に、これらの awes の表現空間は、単語の埋め込み間の距離がそれらの単語の音声的相違によって増加するように構成される。
最後に、awesは人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンに類似した単語の発語バイアスを示す。
これは有望な結果であり、言語処理と語彙記憶のリンクを提供する認知科学において潜在的に有用なツールとしてのawesのさらなる評価を促す。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR [8.832255053182283]
本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
論文 参考訳(メタデータ) (2022-10-21T17:45:00Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。