論文の概要: Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study
- arxiv url: http://arxiv.org/abs/2106.08686v1
- Date: Wed, 16 Jun 2021 10:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 03:00:04.406006
- Title: Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study
- Title(参考訳): 音響単語は音韻的類似性を取り込むか?
実証的研究
- Authors: Badr M. Abdullah, Marius Mosbach, Iuliia Zaitova, Bernd M\"obius,
Dietrich Klakow
- Abstract要約: 本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
- 参考スコア(独自算出の注目度): 12.210797811981173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several variants of deep neural networks have been successfully employed for
building parametric models that project variable-duration spoken word segments
onto fixed-size vector representations, or acoustic word embeddings (AWEs).
However, it remains unclear to what degree we can rely on the distance in the
emerging AWE space as an estimate of word-form similarity. In this paper, we
ask: does the distance in the acoustic embedding space correlate with
phonological dissimilarity? To answer this question, we empirically investigate
the performance of supervised approaches for AWEs with different neural
architectures and learning objectives. We train AWE models in controlled
settings for two languages (German and Czech) and evaluate the embeddings on
two tasks: word discrimination and phonological similarity. Our experiments
show that (1) the distance in the embedding space in the best cases only
moderately correlates with phonological distance, and (2) improving the
performance on the word discrimination task does not necessarily yield models
that better reflect word phonological similarity. Our findings highlight the
necessity to rethink the current intrinsic evaluations for AWEs.
- Abstract(参考訳): 深層ニューラルネットワークのいくつかの変種は、可変述語セグメントを固定サイズのベクトル表現や音響単語埋め込み(AWE)に投影するパラメトリックモデルの構築に成功している。
しかし、単語形式の類似性の推定として、出現するAWE空間における距離にどの程度依存できるかは定かではない。
本稿では,音響埋め込み空間内の距離が音韻的相違と相関しているかを問う。
そこで我々は,ニューラルネットワークと学習目的の異なるAWEに対する教師付きアプローチの性能を実証的に検討した。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)最善の場合の埋め込み空間における距離は音韻距離と適度にしか相関せず,(2)単語識別タスクの性能向上は必ずしも単語音韻類似性を反映したモデルとなるとは限らない。
以上の結果から,AWEに対する本質的評価の再考の必要性が示唆された。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Analyzing the Representational Geometry of Acoustic Word Embeddings [22.677210029168588]
音響単語埋め込み(AWEs)は、同じ単語の異なる音響例が近傍に投影されるようなベクトル表現である。
本稿では、英語の音声から学んだAWEを分析分析し、学習対象とアーキテクチャの選択がどのように表現プロファイルを形作るかを検討する。
論文 参考訳(メタデータ) (2023-01-08T10:22:50Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - How Familiar Does That Sound? Cross-Lingual Representational Similarity
Analysis of Acoustic Word Embeddings [12.788276426899312]
本稿では、音響単語の埋め込み(AWE)を分析するために、表現類似性分析(RSA)に基づく新しい設計を提案する。
まず,類型的類似度の異なる7つのインド・ヨーロッパ語で単言語AWEモデルを訓練する。
次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。
論文 参考訳(メタデータ) (2021-09-21T13:51:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Cross-Domain Adaptation of Spoken Language Identification for Related
Languages: The Curious Case of Slavic Languages [17.882477802269243]
本稿では,ドメインミスマッチがニューラルLIDシステムの性能に与える影響について検討する。
ドメイン外の音声サンプルがニューラルLIDモデルの性能を著しく損なうことを示す。
音源領域の音響条件の多様性に応じて,9%から77%の相対精度向上を実現した。
論文 参考訳(メタデータ) (2020-08-02T19:30:39Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。