論文の概要: Self-Supervised Speech Representation Learning: A Review
- arxiv url: http://arxiv.org/abs/2205.10643v1
- Date: Sat, 21 May 2022 16:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 12:21:12.502288
- Title: Self-Supervised Speech Representation Learning: A Review
- Title(参考訳): 自己監督型音声表現学習の展望
- Authors: Abdelrahman Mohamed, Hung-yi Lee, Lasse Borgholt, Jakob D. Havtorn,
Joakim Edin, Christian Igel, Katrin Kirchhoff, Shang-Wen Li, Karen Livescu,
Lars Maal{\o}e, Tara N. Sainath, Shinji Watanabe
- Abstract要約: 自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
- 参考スコア(独自算出の注目度): 105.1545308184483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although supervised deep learning has revolutionized speech and audio
processing, it has necessitated the building of specialist models for
individual tasks and application scenarios. It is likewise difficult to apply
this to dialects and languages for which only limited labeled data is
available. Self-supervised representation learning methods promise a single
universal model that would benefit a wide variety of tasks and domains. Such
methods have shown success in natural language processing and computer vision
domains, achieving new levels of performance while reducing the number of
labels required for many downstream scenarios. Speech representation learning
is experiencing similar progress in three main categories: generative,
contrastive, and predictive methods. Other approaches rely on multi-modal data
for pre-training, mixing text or visual data streams with speech. Although
self-supervised speech representation is still a nascent research area, it is
closely related to acoustic word embedding and learning with zero lexical
resources, both of which have seen active research for many years. This review
presents approaches for self-supervised speech representation learning and
their connection to other research areas. Since many current methods focus
solely on automatic speech recognition as a downstream task, we review recent
efforts on benchmarking learned representations to extend the application
beyond speech recognition.
- Abstract(参考訳): 教師付きディープラーニングは音声と音声処理に革命をもたらしたが、個々のタスクやアプリケーションシナリオの専門モデルの構築を必要としている。
同様に、限定されたラベル付きデータしか利用できない方言や言語に適用することは困難である。
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
このような手法は自然言語処理やコンピュータビジョン領域で成功し、多くのダウンストリームシナリオに必要なラベル数を削減しつつ、新たなレベルのパフォーマンスを実現している。
音声表現学習は、生成的、コントラスト的、予測的な3つのカテゴリで同様の進歩を経験している。
その他のアプローチでは、事前トレーニングやテキストやビジュアルデータストリームと音声を混合するマルチモーダルデータに依存している。
自己教師あり音声表現はいまだに創発的な研究分野であるが、語彙資源ゼロの音響単語埋め込みや学習と密接に関連しており、いずれも長年にわたって活発に研究されてきた。
本稿では,自己指導型音声表現学習と他の研究領域との関係について述べる。
ダウンストリームタスクとして自動音声認識にのみ焦点をあてる手法が多数あるため,音声認識を超えてアプリケーションを拡張するための学習表現のベンチマークに関する最近の取り組みを概観する。
関連論文リスト
- VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - A Brief Overview of Unsupervised Neural Speech Representation Learning [12.850357461259197]
本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
論文 参考訳(メタデータ) (2022-03-01T11:15:35Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.1320960069210484]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。