論文の概要: Speech representation learning: Learning bidirectional encoders with
single-view, multi-view, and multi-task methods
- arxiv url: http://arxiv.org/abs/2308.00129v1
- Date: Tue, 25 Jul 2023 20:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 11:01:27.540087
- Title: Speech representation learning: Learning bidirectional encoders with
single-view, multi-view, and multi-task methods
- Title(参考訳): 音声表現学習:シングルビュー、マルチビュー、マルチタスク法による双方向エンコーダの学習
- Authors: Qingming Tang
- Abstract要約: この論文は、時間や空間によるシーケンスデータの表現学習に焦点を当てている。
学習した表現を用いて下流のシーケンス予測タスクを改善することを目的としている。
- 参考スコア(独自算出の注目度): 7.1345443932276424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This thesis focuses on representation learning for sequence data over time or
space, aiming to improve downstream sequence prediction tasks by using the
learned representations. Supervised learning has been the most dominant
approach for training deep neural networks for learning good sequential
representations. However, one limiting factor to scale supervised learning is
the lack of enough annotated data. Motivated by this challenge, it is natural
to explore representation learning methods that can utilize large amounts of
unlabeled and weakly labeled data, as well as an additional data modality. I
describe my broad study of representation learning for speech data. Unlike most
other works that focus on a single learning setting, this thesis studies
multiple settings: supervised learning with auxiliary losses, unsupervised
learning, semi-supervised learning, and multi-view learning. Besides different
learning problems, I also explore multiple approaches for representation
learning. Though I focus on speech data, the methods described in this thesis
can also be applied to other domains. Overall, the field of representation
learning is developing rapidly. State-of-the-art results on speech related
tasks are typically based on Transformers pre-trained with large-scale
self-supervised learning, which aims to learn generic representations that can
benefit multiple downstream tasks. Since 2020, large-scale pre-training has
been the de facto choice to achieve good performance. This delayed thesis does
not attempt to summarize and compare with the latest results on speech
representation learning; instead, it presents a unique study on speech
representation learning before the Transformer era, that covers multiple
learning settings. Some of the findings in this thesis can still be useful
today.
- Abstract(参考訳): 本論文は,時系列データの時間的あるいは空間的表現学習に着目し,学習表現を用いて下流系列予測タスクを改善することを目的としている。
教師付き学習は、適切なシーケンシャル表現を学習するためにディープニューラルネットワークをトレーニングするための最も有力なアプローチである。
しかし、教師付き学習をスケールするための制限要因の1つは、十分な注釈付きデータがないことである。
この課題によって動機付けられた、大量のラベル付きおよび弱いラベル付きデータと追加のデータモダリティを活用できる表現学習手法を検討することは自然である。
音声データに対する表現学習の幅広い研究について述べる。
この論文では、補助的な損失を伴う教師あり学習、教師なし学習、半教師あり学習、多視点学習など、複数の設定について研究している。
さまざまな学習問題に加えて,表現学習に対する複数のアプローチも検討しています。
音声データに焦点をあてるが、この論文に記載されている手法は他の領域にも適用できる。
全体として、表現学習の分野は急速に発展している。
音声関連タスクの最先端結果は通常、大規模な自己教師付き学習で事前訓練されたトランスフォーマーに基づいており、複数の下流タスクに利益をもたらす汎用表現を学習することを目的としている。
2020年以降、大規模な事前トレーニングは、優れたパフォーマンスを達成するためのデファクトな選択となっている。
この遅延論文は、音声表現学習の最新結果を要約して比較しようとはせず、複数の学習設定をカバーするトランスフォーマー時代以前の音声表現学習に関するユニークな研究を示す。
この論文のいくつかの発見は今日でも有用である。
関連論文リスト
- Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Learning Downstream Task by Selectively Capturing Complementary
Knowledge from Multiple Self-supervisedly Learning Pretexts [20.764378638979704]
本稿では,タスクに適した表現を適応的に絞り込むために,アテンション機構を活用する新しい手法を提案する。
本手法は,知識収集において,現在普及しているテキストマッチング手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-04-11T16:46:50Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - An analysis on the use of autoencoders for representation learning:
fundamentals, learning task case studies, explainability and challenges [11.329636084818778]
多くの機械学習タスクでは、データの優れた表現を学ぶことが、優れたパフォーマンスのソリューションを構築するための鍵となる。
可視化のためのデータ埋め込み,画像認識,セマンティックハッシュ,異常行動の検出,インスタンス生成など,一連の学習課題を提示する。
オートエンコーダを唯一の学習方法として用いた各タスクに対して,解を提案する。
論文 参考訳(メタデータ) (2020-05-21T08:41:57Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。