Fugu-MT 論文翻訳(概要): Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition

論文の概要: Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2206.05518v1
Date: Sat, 11 Jun 2022 12:43:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-14 15:56:24.115120
Title: Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition
Title（参考訳）: 自動音声認識のための自己教師付き事前学習モデルのアンサンブル特性の検討
Authors: A Arunkumar, Vrunda N Sukhadia, S. Umesh
Abstract要約: 自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
参考スコア（独自算出の注目度）: 0.3007949058551534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning (SSL) based models have been shown to generate powerful representations that can be used to improve the performance of downstream speech tasks. Several state-of-the-art SSL models are available, and each of these models optimizes a different loss which gives rise to the possibility of their features being complementary. This paper proposes using an ensemble of such SSL representations and models, which exploits the complementary nature of the features extracted by the various pretrained models. We hypothesize that this results in a richer feature representation and shows results for the ASR downstream task. To this end, we use three SSL models that have shown excellent results on ASR tasks, namely HuBERT, Wav2vec2.0, and WaveLM. We explore the ensemble of models fine-tuned for the ASR task and the ensemble of features using the embeddings obtained from the pre-trained models for a downstream ASR task. We get improved performance over individual models and pre-trained features using Librispeech(100h) and WSJ dataset for the downstream tasks.
Abstract（参考訳）: 自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。いくつかの最先端sslモデルが利用可能であり、これらのモデルはそれぞれ異なる損失を最適化し、機能補完の可能性をもたらす。本稿では,様々な事前学習モデルから抽出された特徴の相補的性質を生かしたssl表現とモデルのアンサンブルについて述べる。この結果がよりリッチな特徴表現となり、ASRダウンストリームタスクの結果を示すと仮定する。この目的のために、我々は、HuBERT、Wav2vec2.0、WaveLMという、ASRタスクで優れた結果を示した3つのSSLモデルを使用します。我々は、ASRタスク用に微調整されたモデルのアンサンブルと、下流ASRタスクのためにトレーニング済みモデルから得られた埋め込みを用いて特徴のアンサンブルを探索する。ダウンストリームタスクにlibrispeech(100h)とwsjデータセットを使用して、個々のモデルや事前トレーニングされた機能よりもパフォーマンスが向上します。

関連論文リスト

SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging [60.83635006372403]
textttSE-Mergingは自己拡張型モデルマージフレームワークである。 textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
論文参考訳（メタデータ） (2025-06-22T18:38:41Z)
Few-Shot Inspired Generative Zero-Shot Learning [14.66239393852298]
ジェネレーティブゼロショット学習(ZSL)法は通常、目に見えないクラスの視覚的特徴を合成する。 FSIGenZは,大規模特徴合成への依存度を低減した,数発のショットインスパイアされた生成型ZSLフレームワークである。 SUN、AwA2、CUBベンチマークの実験は、FSIGenZがはるかに少ない合成機能を使用して競合性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-18T02:39:36Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。 textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文参考訳（メタデータ） (2024-06-28T17:53:18Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
mlr3summary: Concise and interpretable summaries for machine learning models [9.191045750996524]
この研究は、機械学習モデルの簡潔で情報的な要約のための新しいRパッケージを導入している。我々は、R 内の(一般化された)線型モデルに対する要約関数からインスピレーションを得るが、それをいくつかの方向に拡張する。
論文参考訳（メタデータ） (2024-04-25T08:57:35Z)
Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2024-04-19T05:01:12Z)
A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文参考訳（メタデータ） (2023-11-27T15:58:28Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文参考訳（メタデータ） (2021-10-18T13:48:28Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。