論文の概要: Speech Self-Supervised Representation Benchmarking: Are We Doing it
Right?
- arxiv url: http://arxiv.org/abs/2306.00452v1
- Date: Thu, 1 Jun 2023 08:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:33:18.303247
- Title: Speech Self-Supervised Representation Benchmarking: Are We Doing it
Right?
- Title(参考訳): 音声の自己監督型表現ベンチマーク:それは正しいか?
- Authors: Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco
Ravanelli
- Abstract要約: 自己教師付き学習(SSL)は、最近、ラベルなし音声信号の大規模なデータセットを活用して、音声タスクにおける印象的なパフォーマンスを実現した。
限定的なデコーダを使用したベンチマークは、開発したSSLモデルのサイズに反生産的な増加をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 24.354848095744536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has recently allowed leveraging large datasets
of unlabeled speech signals to reach impressive performance on speech tasks
using only small amounts of annotated data. The high number of proposed
approaches fostered the need and rise of extended benchmarks that evaluate
their performance on a set of downstream tasks exploring various aspects of the
speech signal. However, and while the number of considered tasks has been
growing, most rely upon a single decoding architecture that maps the frozen SSL
representations to the downstream labels. This work investigates the robustness
of such benchmarking results to changes in the decoder architecture.
Interestingly, it appears that varying the architecture of the downstream
decoder leads to significant variations in the leaderboards of most tasks.
Concerningly, our study reveals that benchmarking using limited decoders may
cause a counterproductive increase in the sizes of the developed SSL models.
- Abstract(参考訳): 自己教師付き学習(SSL)は、最近、少量の注釈付きデータのみを使用して、ラベルなしの音声信号の大規模なデータセットを活用して、音声タスクにおける印象的なパフォーマンスを達成した。
提案手法の多さは、音声信号の様々な側面を探索する一連の下流タスクにおける性能を評価する拡張ベンチマークの必要性と高まりを促した。
しかし、考慮されたタスクの数が増えている一方で、ほとんどの場合、凍結したSSL表現を下流ラベルにマッピングする単一のデコードアーキテクチャに依存している。
本研究では,デコーダアーキテクチャの変更に対するベンチマーク結果の堅牢性について検討する。
興味深いことに、下流デコーダのアーキテクチャの変化は、ほとんどのタスクのリーダーボードに大きな変化をもたらすようだ。
そこで本研究では,限定デコーダを用いたベンチマークにより,SSLモデルのサイズが非生産的に増加する可能性が示唆された。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Memorization in Self-Supervised Learning Improves Downstream Generalization [49.42010047574022]
自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
論文 参考訳(メタデータ) (2024-01-19T11:32:47Z) - Speech Self-Supervised Representations Benchmarking: a Case for Larger
Probing Heads [32.45539981205672]
自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。
本研究では,探索ヘッドアーキテクチャの変化によるベンチマーク結果の影響について検討する。
論文 参考訳(メタデータ) (2023-08-28T09:49:48Z) - Deciphering the Projection Head: Representation Evaluation
Self-supervised Learning [6.375931203397043]
自己教師付き学習(SSL)は、ラベルなしで固有の特徴を学習することを目的としている。
プロジェクションヘッドは、ダウンストリームタスクのパフォーマンスを改善する上で、常に重要な役割を果たす。
本稿では,表現と投影ベクトルとのショートカット接続を構築するSSLモデルにおける表現評価設計(RED)を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:13:53Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。