論文の概要: Pretext Tasks selection for multitask self-supervised speech
representation learning
- arxiv url: http://arxiv.org/abs/2107.00594v1
- Date: Thu, 1 Jul 2021 16:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:51:49.172129
- Title: Pretext Tasks selection for multitask self-supervised speech
representation learning
- Title(参考訳): マルチタスク自己教師付き音声表現学習のためのプリテキストタスク選択
- Authors: Salah Zaiem, Titouan Parcollet and Slim Essid
- Abstract要約: 提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
- 参考スコア(独自算出の注目度): 23.39079406674442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through solving pretext tasks, self-supervised learning leverages unlabeled
data to extract useful latent representations replacing traditional input
features in the downstream task. In various application domains, including
computer vision, natural language processing and audio/speech signal
processing, a wide range of features where engineered through decades of
research efforts. As it turns out, learning to predict such features has proven
to be a particularly relevant pretext task leading to building useful
self-supervised representations that prove to be effective for downstream
tasks. However, methods and common practices for combining such pretext tasks,
where each task targets a different group of features for better performance on
the downstream task have not been explored and understood properly. In fact,
the process relies almost exclusively on a computationally heavy experimental
procedure, which becomes intractable with the increase of the number of pretext
tasks. This paper introduces a method to select a group of pretext tasks among
a set of candidates. The method we propose estimates properly calibrated
weights for the partial losses corresponding to the considered pretext tasks
during the self-supervised training process. The experiments conducted on
speaker recognition and automatic speech recognition validate our approach, as
the groups selected and weighted with our method perform better than classic
baselines, thus facilitating the selection and combination of relevant
pseudo-labels for self-supervised representation learning.
- Abstract(参考訳): プレテキストタスクの解決を通じて、自己教師付き学習はラベルのないデータを活用し、下流タスクの伝統的な入力機能を置き換える有用な潜在表現を抽出する。
コンピュータビジョン、自然言語処理、音声/音声信号処理など、さまざまなアプリケーション領域において、何十年もの研究成果を積んだ幅広い機能がある。
その結果、こうした特徴を予測することの学習は、下流タスクに有効であることを示す有用な自己教師付き表現を構築するための、特に意味のある前提課題であることが判明した。
しかし、ダウンストリームタスクにおけるパフォーマンス向上のために、各タスクが異なる機能グループをターゲットにする、このようなプリテキストタスクを組み合わせる方法や一般的なプラクティスは、十分に検討され、理解されていない。
実際、このプロセスは計算的に重い実験手順にのみ依存しており、プレテキストタスクの数が増加すると難解になる。
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
本手法は,自己指導型学習過程における前提課題に対応する部分的損失に対する適切な補正重み推定手法を提案する。
話者認識と自動音声認識による実験により,従来のベースラインよりも選択・重み付けされたグループの方が優れた結果が得られるため,自己教師付き表現学習のための関連する擬似ラベルの選択と組み合わせが容易になる。
関連論文リスト
- Semantic Prompting with Image-Token for Continual Learning [7.5140668729696145]
I-Promptはタスク予測を排除するためのタスクに依存しないアプローチである。
提案手法は,4つのベンチマーク上での競合性能を実現する。
様々なシナリオにまたがって,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2024-03-18T07:43:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Transfer Learning in Conversational Analysis through Reusing
Preprocessing Data as Supervisors [52.37504333689262]
単一タスク学習におけるノイズの多いラベルの使用は、過度に適合するリスクを増大させる。
補助的なタスクは、同じトレーニング中に一次タスク学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-12-02T08:40:42Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - Conditional independence for pretext task selection in Self-supervised
speech representation learning [23.39079406674442]
自己教師付き学習(ssl)はラベルのないデータを利用して、下流タスクの従来の入力機能を置き換える有用な潜在表現を抽出する。
一般的なプリテキストタスクは、元の信号から派生した擬似ラベル上でSSLモデルを事前訓練することである。
本稿では,与えられた下流タスクに関連のある擬似ラベルを選択するための実用的かつ理論的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T11:32:59Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。