論文の概要: A Theoretical Framework for Acoustic Neighbor Embeddings
- arxiv url: http://arxiv.org/abs/2412.02164v1
- Date: Tue, 03 Dec 2024 04:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:58.647465
- Title: A Theoretical Framework for Acoustic Neighbor Embeddings
- Title(参考訳): 音響近傍の埋め込みに関する理論的枠組み
- Authors: Woojay Jeon,
- Abstract要約: 音声とテキストの埋め込みを最寄りで検索することで、500kの語彙に対して有限状態変換器(FST)と同一の単語分類精度が得られる。
埋め込み距離は、語彙外単語回復における電話編集距離と比較して0.5%ポイント差がある。
理論的枠組みにより、デバイス起動ワードの混乱を予測するために埋め込みを利用することもできる。
- 参考スコア(独自算出の注目度): 1.4504054468850665
- License:
- Abstract: This paper provides a theoretical framework for interpreting acoustic neighbor embeddings, which are representations of the phonetic content of variable-width audio or text in a fixed-dimensional embedding space. A probabilistic interpretation of the distances between embeddings is proposed, based on a general quantitative definition of phonetic similarity between words. This provides us a framework for understanding and applying the embeddings in a principled manner. Theoretical and empirical evidence to support an approximation of uniform cluster-wise isotropy are shown, which allows us to reduce the distances to simple Euclidean distances. Four experiments that validate the framework and demonstrate how it can be applied to diverse problems are described. Nearest-neighbor search between audio and text embeddings can give isolated word classification accuracy that is identical to that of finite state transducers (FSTs) for vocabularies as large as 500k. Embedding distances give accuracy with 0.5% point difference compared to phone edit distances in out-of-vocabulary word recovery, as well as producing clustering hierarchies identical to those derived from human listening experiments in English dialect clustering. The theoretical framework also allows us to use the embeddings to predict the expected confusion of device wake-up words. All source code and pretrained models are provided.
- Abstract(参考訳): 本稿では,定次元埋め込み空間における可変幅音声やテキストの音響的内容の表現である音響的隣接埋め込みを解釈するための理論的枠組みを提供する。
単語間の音韻類似性の一般的な定量的定義に基づいて,埋め込み間の距離の確率論的解釈を提案する。
これにより、埋め込みを原則的に理解し、適用するためのフレームワークが提供されます。
均一なクラスタ単位の等方性の近似を支持する理論的および経験的な証拠が示され、単純なユークリッド距離までの距離を減らすことができる。
フレームワークを検証し、様々な問題にどのように適用できるかを示す4つの実験について述べる。
音声とテキストの埋め込みを最寄りで検索することで、500kの語彙に対して有限状態変換器(FST)と同一の単語分類精度が得られる。
埋め込み距離は、語彙外単語復元における音声編集距離と比較して0.5%の精度で精度が得られ、また、英語方言クラスタリングにおける人間の聴取実験から派生したものと同一のクラスタリング階層を生成する。
理論的枠組みにより、デバイス起動ワードの混乱を予測するために埋め込みを利用することもできる。
すべてのソースコードと事前訓練されたモデルが提供されている。
関連論文リスト
- Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Acoustic Neighbor Embeddings [2.842794675894731]
本稿では,アコースティック・ニーバー・エンベディングと呼ばれる新しい音響単語の埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
認識精度は従来の有限状態トランスデューサ(FST)ベースのデコードと同一であり、語彙で最大100万名、埋め込みで40次元の試験データを使用する。
論文 参考訳(メタデータ) (2020-07-20T05:33:07Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。