論文の概要: A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings
- arxiv url: http://arxiv.org/abs/2012.07387v1
- Date: Mon, 14 Dec 2020 10:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:27:36.759135
- Title: A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings
- Title(参考訳): 教師なし音響単語埋め込みの入力特徴としての自己教師あり音声表現の比較
- Authors: Lisa van Staden, Herman Kamper
- Abstract要約: 私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
- 参考スコア(独自算出の注目度): 32.59716743279858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many speech processing tasks involve measuring the acoustic similarity
between speech segments. Acoustic word embeddings (AWE) allow for efficient
comparisons by mapping speech segments of arbitrary duration to
fixed-dimensional vectors. For zero-resource speech processing, where
unlabelled speech is the only available resource, some of the best AWE
approaches rely on weak top-down constraints in the form of automatically
discovered word-like segments. Rather than learning embeddings at the segment
level, another line of zero-resource research has looked at representation
learning at the short-time frame level. Recent approaches include
self-supervised predictive coding and correspondence autoencoder (CAE) models.
In this paper we consider whether these frame-level features are beneficial
when used as inputs for training to an unsupervised AWE model. We compare
frame-level features from contrastive predictive coding (CPC), autoregressive
predictive coding and a CAE to conventional MFCCs. These are used as inputs to
a recurrent CAE-based AWE model. In a word discrimination task on English and
Xitsonga data, all three representation learning approaches outperform MFCCs,
with CPC consistently showing the biggest improvement. In cross-lingual
experiments we find that CPC features trained on English can also be
transferred to Xitsonga.
- Abstract(参考訳): 多くの音声処理タスクでは、音声セグメント間の音響的類似度を測定する。
音響単語埋め込み(AWE)は、任意の長さの音声セグメントを固定次元ベクトルにマッピングすることで、効率的な比較を可能にする。
unlabelled speechが唯一の利用可能なリソースであるゼロリソース音声処理では、aweの最良のアプローチのいくつかは、自動的に検出される単語のようなセグメントの形で、弱いトップダウン制約に依存している。
セグメントレベルで埋め込みを学ぶのではなく、ゼロリソースの研究の別の一行は、短期的なフレームレベルでの表現学習に注目した。
最近のアプローチには、自己教師付き予測符号化と対応オートエンコーダ(CAE)モデルがある。
本稿では,教師なしaweモデルへのトレーニングの入力として使用する場合,フレームレベルの特徴が有益かどうかを検討する。
フレームレベルの特徴として、コントラスト予測符号化(CPC)、自己回帰予測符号化、CAEを従来のMFCCと比較する。
これらは、繰り返しCAEベースのAWEモデルの入力として使用される。
英語とXitsongaのデータにおける単語識別タスクでは、3つの表現学習アプローチがMFCCよりも優れており、CPCは一貫して最大の改善を示している。
言語横断実験では、英語で訓練されたCPC機能もXitsongaに移行できることがわかった。
関連論文リスト
- Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Unsupervised feature learning for speech using correspondence and
Siamese networks [24.22616495324351]
フレームレベルの音響特徴学習における最近の2つの手法を比較した。
どちらの方法も、教師なしの項発見は、同じ未知の型の単語のペアを見つけるために用いられる。
対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。
これらの特徴抽出器を、同じ弱い監督ペアを用いて、同一の識別タスクで初めて比較する。
論文 参考訳(メタデータ) (2020-03-28T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。