Fugu-MT 論文翻訳(概要): Towards Early Prediction of Self-Supervised Speech Model Performance

論文の概要: Towards Early Prediction of Self-Supervised Speech Model Performance

arxiv url: http://arxiv.org/abs/2501.05966v1
Date: Fri, 10 Jan 2025 13:49:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.257101
Title: Towards Early Prediction of Self-Supervised Speech Model Performance
Title（参考訳）: 自己監督型音声モデルの性能の早期予測に向けて
Authors: Ryan Whetten, Lucas Maison, Titouan Parcollet, Marco Dinarelli, Yannick Estève,
Abstract要約: SSL音声モデルの事前学習の質について,教師なしの効率的な手法を提案する。その結果, クラスタ品質とランクの指標は, 未ラベル音声の1時間における事前学習損失よりも, ダウンストリーム性能と相関することがわかった。
参考スコア（独自算出の注目度）: 23.934743358907895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Self-Supervised Learning (SSL), pre-training and evaluation are resource intensive. In the speech domain, current indicators of the quality of SSL models during pre-training, such as the loss, do not correlate well with downstream performance. Consequently, it is often difficult to gauge the final downstream performance in a cost efficient manner during pre-training. In this work, we propose unsupervised efficient methods that give insights into the quality of the pre-training of SSL speech models, namely, measuring the cluster quality and rank of the embeddings of the SSL model. Results show that measures of cluster quality and rank correlate better with downstream performance than the pre-training loss with only one hour of unlabeled audio, reducing the need for GPU hours and labeled data in SSL model evaluation.
Abstract（参考訳）: Self-Supervised Learning (SSL)では、事前学習と評価がリソース集約型である。音声領域では、損失などの事前トレーニング中のSSLモデルの品質の現在の指標は、下流のパフォーマンスとよく相関しない。したがって、事前訓練中に、最終的な下流性能をコスト効率よく評価することはしばしば困難である。本研究では,SSL音声モデルの事前学習の品質,すなわちSSLモデルの埋め込みのクラスタ品質とランクを計測する,教師なしの効率的な手法を提案する。その結果、クラスタ品質とランクの測定値は、トレーニング前の損失よりも1時間の未ラベル音声で、ダウンストリーム性能と相関し、GPU時間とSSLモデル評価におけるラベル付きデータの必要性を低減した。

関連論文リスト

A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。 SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文参考訳（メタデータ） (2024-07-16T23:17:36Z)
A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification [3.5092955099876266]
本稿では,人口統計学的に公平な顔属性分類のための完全自己教師付きパイプラインを提案する。我々は、事前訓練されたエンコーダ、多様なデータキュレーション技術、メタラーニングに基づく重み付きコントラスト学習を通じて、完全にラベル付けされていないデータを活用する。
論文参考訳（メタデータ） (2024-07-14T07:11:57Z)
Self-supervised visual learning in the low-data regime: a comparative evaluation [38.34785825702943]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための価値ある、堅牢なトレーニング手法である大量のラベルのないトレーニングデータから効率的な表現学習を可能にする。非常に大きな事前学習データセットの収集や利用が常に可能であるとは限らない。
論文参考訳（メタデータ） (2024-04-26T07:23:14Z)
Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Evaluating Fairness in Self-supervised and Supervised Models for Sequential Data [10.626503137418636]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-01-03T09:31:43Z)
Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-12-20T06:02:12Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Progressive Feature Adjustment for Semi-supervised Learning from Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文参考訳（メタデータ） (2023-09-09T01:57:14Z)
Rethinking Self-Supervised Visual Representation Learning in Pre-training for 3D Human Pose and Shape Estimation [57.206129938611454]
自己教師付き表現学習(SSL)法は、オブジェクト検出などの視覚タスクのためのImageNet分類前トレーニングよりも優れている。我々は、SSLの効果を実証的に研究し分析し、3DHPSEの事前学習方法と比較した。我々の観察では、現在のSSLの3DHPSEへの初歩的な適用に挑戦し、事前トレーニングの側面において、他のデータ型の価値を啓蒙する。
論文参考訳（メタデータ） (2023-03-09T16:17:52Z)
Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文参考訳（メタデータ） (2022-03-31T11:48:24Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。