論文の概要: Phonetic Word Embeddings
- arxiv url: http://arxiv.org/abs/2109.14796v1
- Date: Thu, 30 Sep 2021 01:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-02 05:14:06.903085
- Title: Phonetic Word Embeddings
- Title(参考訳): 音語埋め込み
- Authors: Rahul Sharma, Kunal Dhawan, Balakrishna Pailla
- Abstract要約: 本稿では,人間の音知覚からモチベーションを受ける単語間の音声的類似性を計算するための新しい手法を提案する。
この計量は、類似の発声語をまとめる連続ベクトル埋め込み空間を学ぶために用いられる。
本手法の有効性を2つの異なる言語(ヒンディー語、ヒンディー語)で示し、過去の報告よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 1.2192936362342826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a novel methodology for calculating the phonetic
similarity between words taking motivation from the human perception of sounds.
This metric is employed to learn a continuous vector embedding space that
groups similar sounding words together and can be used for various downstream
computational phonology tasks. The efficacy of the method is presented for two
different languages (English, Hindi) and performance gains over previous
reported works are discussed on established tests for predicting phonetic
similarity. To address limited benchmarking mechanisms in this field, we also
introduce a heterographic pun dataset based evaluation methodology to compare
the effectiveness of acoustic similarity algorithms. Further, a visualization
of the embedding space is presented with a discussion on the various possible
use-cases of this novel algorithm. An open-source implementation is also shared
to aid reproducibility and enable adoption in related tasks.
- Abstract(参考訳): 本研究は,人間の音知覚からモチベーションを受ける単語間の音声的類似性を計算するための新しい手法を提案する。
この計量は、同様の発音語をグループ化し、様々な下流計算音韻処理に使用できる連続ベクトル埋め込み空間を学習するために用いられる。
本手法の有効性を2つの異なる言語(英語,ヒンディー語)に対して示し,音韻類似性を予測するための確立されたテストについて,先行研究よりも性能向上について検討した。
この分野での限定的なベンチマーク機構に対処するために,音響類似性アルゴリズムの有効性を比較するために,ヘテログラフィックパントデータセットに基づく評価手法も導入する。
さらに, 組込み空間の可視化について, 本アルゴリズムの様々な利用事例について論じる。
再現性を支援し、関連するタスクに採用できるように、オープンソース実装も共有されている。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - A Human Word Association based model for topic detection in social networks [1.8749305679160366]
本稿では,単語連想の心的能力を模倣する概念に基づく,ソーシャルネットワークの話題検出フレームワークを提案する。
このフレームワークの性能は、トピック検出の分野におけるベンチマークであるFA-CUPデータセットを用いて評価される。
論文 参考訳(メタデータ) (2023-01-30T17:10:34Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。