論文の概要: A Brief Overview of Unsupervised Neural Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2203.01829v1
- Date: Tue, 1 Mar 2022 11:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 17:05:17.907324
- Title: A Brief Overview of Unsupervised Neural Speech Representation Learning
- Title(参考訳): 教師なしニューラル音声表現学習の概要
- Authors: Lasse Borgholt, Jakob Drachmann Havtorn, Joakim Edin, Lars Maal{\o}e,
Christian Igel
- Abstract要約: 本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
- 参考スコア(独自算出の注目度): 12.850357461259197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning for speech processing has matured
greatly in the last few years. Work in computer vision and natural language
processing has paved the way, but speech data offers unique challenges. As a
result, methods from other domains rarely translate directly. We review the
development of unsupervised representation learning for speech over the last
decade. We identify two primary model categories: self-supervised methods and
probabilistic latent variable models. We describe the models and develop a
comprehensive taxonomy. Finally, we discuss and compare models from the two
categories.
- Abstract(参考訳): 近年,音声処理のための教師なし表現学習が盛んに行われている。
コンピュータビジョンと自然言語処理の仕事は道を切り開いたが、音声データには独特の課題がある。
その結果、他のドメインからのメソッドが直接翻訳されることはほとんどない。
本稿では,過去10年間の音声のための教師なし表現学習の開発について概観する。
自己教師付き手法と確率潜在変数モデルという2つの主要なモデルカテゴリを同定する。
モデルを説明し,包括的分類法を開発する。
最後に,2つのカテゴリのモデルを比較して比較する。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Explaining Speech Classification Models via Word-Level Audio Segments
and Paralinguistic Features [35.31998003091635]
音声分類モデルを説明するための新しい手法を提案する。
入力摂動による2つの情報レベルの理解が容易な説明を生成する。
英語とイタリア語の2つの音声分類課題に対して、最先端の2つのSLUモデルを説明することによって、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-14T14:12:34Z) - Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model [21.286529902957724]
自己教師型音声モデルの学習において, 音節単位を捉えた表現が出現することを示す。
我々のモデルは、訓練された言語(英語)上で、最先端のシラバス的セグメンテーション法よりも優れているだけでなく、ゼロショット方式でエストニア語に一般化していることを示す。
論文 参考訳(メタデータ) (2023-05-19T05:19:04Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。