論文の概要: A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings
- arxiv url: http://arxiv.org/abs/2012.02221v1
- Date: Thu, 3 Dec 2020 19:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:46:37.882936
- Title: A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings
- Title(参考訳): 教師なし音響単語埋め込みのための対応変分オートエンコーダ
- Authors: Puyuan Peng, Herman Kamper, Karen Livescu
- Abstract要約: そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
- 参考スコア(独自算出の注目度): 50.524054820564395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new unsupervised model for mapping a variable-duration speech
segment to a fixed-dimensional representation. The resulting acoustic word
embeddings can form the basis of search, discovery, and indexing systems for
low- and zero-resource languages. Our model, which we refer to as a maximal
sampling correspondence variational autoencoder (MCVAE), is a recurrent neural
network (RNN) trained with a novel self-supervised correspondence loss that
encourages consistency between embeddings of different instances of the same
word. Our training scheme improves on previous correspondence training
approaches through the use and comparison of multiple samples from the
approximate posterior distribution. In the zero-resource setting, the MCVAE can
be trained in an unsupervised way, without any ground-truth word pairs, by
using the word-like segments discovered via an unsupervised term discovery
system. In both this setting and a semi-supervised low-resource setting (with a
limited set of ground-truth word pairs), the MCVAE outperforms previous
state-of-the-art models, such as Siamese-, CAE- and VAE-based RNNs.
- Abstract(参考訳): 本稿では,可変デュレーション音声セグメントを定次元表現にマッピングする新しい教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語の検索、発見、インデックスシステムの基礎を形成することができる。
我々のモデルは、最大サンプリング対応変分オートエンコーダ(MCVAE)と呼ばれ、同じ単語の異なるインスタンスの埋め込み間の整合性を促進する新しい自己教師付き対応損失をトレーニングしたリカレントニューラルネットワーク(RNN)である。
提案手法は, 近似後部分布から得られた複数のサンプルの利用と比較により, 従来の対応訓練手法の改良を行う。
ゼロリソース設定では、MCVAEは、教師なし項発見システムを介して発見された単語のようなセグメントを使用することで、基幹語対なしで教師なしの方法で訓練することができる。
この設定と半教師付き低リソース設定(接頭辞対の限られたセット)の両方において、MCVAEはシームズ、CAE、VAEベースのRNNといった従来の最先端モデルよりも優れている。
関連論文リスト
- Enhancing Modern Supervised Word Sense Disambiguation Models by Semantic
Lexical Resources [11.257738983764499]
現在、Word Sense Disambiguation (WSD) の監視モデルは、最も人気のあるベンチマークで最先端の結果をもたらす。
我々は、WordNetとWordNet Domainsという2つの人気のあるSLRを利用する「モダンな」教師付きWSDモデルを強化する。
本研究では,単語埋め込みやリカレントニューラルネットワークの混合によって符号化された局所的文脈との相互作用について,異なるタイプの意味的特徴の影響について検討する。
論文 参考訳(メタデータ) (2024-02-20T13:47:51Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。