論文の概要: Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.05518v1
- Date: Sat, 11 Jun 2022 12:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:56:24.115120
- Title: Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための自己教師付き事前学習モデルのアンサンブル特性の検討
- Authors: A Arunkumar, Vrunda N Sukhadia, S. Umesh
- Abstract要約: 自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
- 参考スコア(独自算出の注目度): 0.3007949058551534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) based models have been shown to generate
powerful representations that can be used to improve the performance of
downstream speech tasks. Several state-of-the-art SSL models are available, and
each of these models optimizes a different loss which gives rise to the
possibility of their features being complementary. This paper proposes using an
ensemble of such SSL representations and models, which exploits the
complementary nature of the features extracted by the various pretrained
models. We hypothesize that this results in a richer feature representation and
shows results for the ASR downstream task. To this end, we use three SSL models
that have shown excellent results on ASR tasks, namely HuBERT, Wav2vec2.0, and
WaveLM. We explore the ensemble of models fine-tuned for the ASR task and the
ensemble of features using the embeddings obtained from the pre-trained models
for a downstream ASR task. We get improved performance over individual models
and pre-trained features using Librispeech(100h) and WSJ dataset for the
downstream tasks.
- Abstract(参考訳): 自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
いくつかの最先端sslモデルが利用可能であり、これらのモデルはそれぞれ異なる損失を最適化し、機能補完の可能性をもたらす。
本稿では,様々な事前学習モデルから抽出された特徴の相補的性質を生かしたssl表現とモデルのアンサンブルについて述べる。
この結果がよりリッチな特徴表現となり、ASRダウンストリームタスクの結果を示すと仮定する。
この目的のために、我々は、HuBERT、Wav2vec2.0、WaveLMという、ASRタスクで優れた結果を示した3つのSSLモデルを使用します。
我々は、ASRタスク用に微調整されたモデルのアンサンブルと、下流ASRタスクのためにトレーニング済みモデルから得られた埋め込みを用いて特徴のアンサンブルを探索する。
ダウンストリームタスクにlibrispeech(100h)とwsjデータセットを使用して、個々のモデルや事前トレーニングされた機能よりもパフォーマンスが向上します。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - mlr3summary: Concise and interpretable summaries for machine learning models [9.191045750996524]
この研究は、機械学習モデルの簡潔で情報的な要約のための新しいRパッケージを導入している。
我々は、R 内の(一般化された)線型モデルに対する要約関数からインスピレーションを得るが、それをいくつかの方向に拡張する。
論文 参考訳(メタデータ) (2024-04-25T08:57:35Z) - Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。
本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。
提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-19T05:01:12Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文 参考訳(メタデータ) (2021-10-18T13:48:28Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。