論文の概要: Leveraging multilingual transfer for unsupervised semantic acoustic word
embeddings
- arxiv url: http://arxiv.org/abs/2307.02083v1
- Date: Wed, 5 Jul 2023 07:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:44:14.375841
- Title: Leveraging multilingual transfer for unsupervised semantic acoustic word
embeddings
- Title(参考訳): 教師なし意味音声単語埋め込みにおける多言語伝達の活用
- Authors: Christiaan Jacobs and Herman Kamper
- Abstract要約: 音響単語埋め込み(AWEs)は、音声の内容を符号化する音声セグメントの固定次元ベクトル表現である。
本稿ではセマンティックAWEモデリングについて考察する。
AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示します。
- 参考スコア(独自算出の注目度): 23.822788597966646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic word embeddings (AWEs) are fixed-dimensional vector representations
of speech segments that encode phonetic content so that different realisations
of the same word have similar embeddings. In this paper we explore semantic AWE
modelling. These AWEs should not only capture phonetics but also the meaning of
a word (similar to textual word embeddings). We consider the scenario where we
only have untranscribed speech in a target language. We introduce a number of
strategies leveraging a pre-trained multilingual AWE model -- a phonetic AWE
model trained on labelled data from multiple languages excluding the target.
Our best semantic AWE approach involves clustering word segments using the
multilingual AWE model, deriving soft pseudo-word labels from the cluster
centroids, and then training a Skipgram-like model on the soft vectors. In an
intrinsic word similarity task measuring semantics, this multilingual transfer
approach outperforms all previous semantic AWE methods. We also show -- for the
first time -- that AWEs can be used for downstream semantic query-by-example
search.
- Abstract(参考訳): アコースティックワード埋め込み (awes) は音声セグメントの固定次元ベクトル表現であり、同じ単語の異なる実現が類似の埋め込みを持つように音声コンテンツを符号化する。
本稿ではセマンティックAWEモデリングについて考察する。
これらのAWEは音素だけでなく、単語の意味(テキストの埋め込みに似ている)も捉えるべきである。
対象言語における未転写音声しか持たないシナリオを考察する。
対象言語を除く複数の言語からのラベル付きデータに基づいて訓練された音声AWEモデルである、事前訓練された多言語AWEモデルを活用するための戦略をいくつか紹介する。
セマンティクスaweアプローチでは,多言語aweモデルを用いて単語セグメントをクラスタリングし,クラスタセンタロイドからソフト擬似単語ラベルを導出し,ソフトベクタ上でスキップグラムライクなモデルをトレーニングする。
セマンティクスを測る固有単語類似性タスクでは、この多言語変換アプローチは従来のAWE手法よりも優れている。
また、AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示しています。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Spoken Word2Vec: A Perspective And Some Techniques [1.0515439489916731]
分散意味的特徴を符号化するテキストワード埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することによって機能する。
一方、音響単語の埋め込みは、典型的には低レベル音韻類似性を符号化する。
入力単位が音響的に相関している場合、Word2Vecアルゴリズムが分布意味論を符号化できないことを示す。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。