論文の概要: Unsupervised feature learning for speech using correspondence and
Siamese networks
- arxiv url: http://arxiv.org/abs/2003.12799v1
- Date: Sat, 28 Mar 2020 14:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:55:09.390470
- Title: Unsupervised feature learning for speech using correspondence and
Siamese networks
- Title(参考訳): 対応とシームズネットワークを用いた音声の教師なし特徴学習
- Authors: Petri-Johan Last, Herman A. Engelbrecht, Herman Kamper
- Abstract要約: フレームレベルの音響特徴学習における最近の2つの手法を比較した。
どちらの方法も、教師なしの項発見は、同じ未知の型の単語のペアを見つけるために用いられる。
対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。
これらの特徴抽出器を、同じ弱い監督ペアを用いて、同一の識別タスクで初めて比較する。
- 参考スコア(独自算出の注目度): 24.22616495324351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In zero-resource settings where transcribed speech audio is unavailable,
unsupervised feature learning is essential for downstream speech processing
tasks. Here we compare two recent methods for frame-level acoustic feature
learning. For both methods, unsupervised term discovery is used to find pairs
of word examples of the same unknown type. Dynamic programming is then used to
align the feature frames between each word pair, serving as weak top-down
supervision for the two models. For the correspondence autoencoder (CAE),
matching frames are presented as input-output pairs. The Triamese network uses
a contrastive loss to reduce the distance between frames of the same predicted
word type while increasing the distance between negative examples. For the
first time, these feature extractors are compared on the same discrimination
tasks using the same weak supervision pairs. We find that, on the two datasets
considered here, the CAE outperforms the Triamese network. However, we show
that a new hybrid correspondence-Triamese approach (CTriamese), consistently
outperforms both the CAE and Triamese models in terms of average precision and
ABX error rates on both English and Xitsonga evaluation data.
- Abstract(参考訳): 書き起こされた音声が使用できないゼロリソース環境では、教師なしの機能学習が下流の音声処理タスクに不可欠である。
本稿では,2種類のフレームレベルの音響特徴学習法を比較する。
どちらの方法も、教師なし項発見は、同じ未知のタイプの単語のペアを見つけるために用いられる。
次に動的プログラミングは、各単語ペア間の機能フレームの調整に使われ、2つのモデルの弱いトップダウンの監督に役立ちます。
対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。
triamese networkは、同じ予測された単語タイプのフレーム間の距離を減少させながら、負の例間の距離を増加させるコントラスト的損失を使用する。
このような特徴抽出器を,同じ弱い監督ペアを用いて同一の識別タスクで初めて比較する。
ここで考慮された2つのデータセットにおいて、CAEはTriameseネットワークよりも優れています。
しかし,新たなハイブリッド通信方式(CTriamese)は,英語とXitsongaの評価データの平均精度とABX誤差率において,CAEモデルとTriameseモデルの両方より一貫して優れていた。
関連論文リスト
- Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - A Comparison of Discrete Latent Variable Models for Speech
Representation Learning [46.52258734975676]
本稿では,入力信号の予測や自動符号化に基づく2つのアプローチの比較を行う。
結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-24T01:22:14Z) - End-to-End Lip Synchronisation Based on Pattern Classification [15.851638021923875]
本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T11:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。