論文の概要: Efficient Domain Adaptation for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2302.01496v1
- Date: Fri, 3 Feb 2023 02:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:50:52.924679
- Title: Efficient Domain Adaptation for Speech Foundation Models
- Title(参考訳): 音声基礎モデルの効率的なドメイン適応
- Authors: Bo Li, Dongseong Hwang, Zhouyuan Huo, Junwen Bai, Guru Prakash, Tara
N. Sainath, Khe Chai Sim, Yu Zhang, Wei Han, Trevor Strohman, Francoise
Beaufays
- Abstract要約: 本稿では,FMに基づく音声認識システムのための効率的なソリューション構築に向けた先駆的な研究について述べる。
我々は、最近開発された自己教師型BEST-RQを事前学習に適用し、ソースデータと教師なしターゲットドメインデータとの結合微調整を提案する。
大規模なYouTubeおよびVoice Searchタスクにおいて,本手法はデータとモデルパラメータの両方を効率よく行うことが示されている。
- 参考スコア(独自算出の注目度): 42.81357437023811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs), that are trained on broad data at scale and are
adaptable to a wide range of downstream tasks, have brought large interest in
the research community. Benefiting from the diverse data sources such as
different modalities, languages and application domains, foundation models have
demonstrated strong generalization and knowledge transfer capabilities. In this
paper, we present a pioneering study towards building an efficient solution for
FM-based speech recognition systems. We adopt the recently developed
self-supervised BEST-RQ for pretraining, and propose the joint finetuning with
both source and unsupervised target domain data using JUST Hydra. The FM
encoder adapter and decoder are then finetuned to the target domain with a
small amount of supervised in-domain data. On a large-scale YouTube and Voice
Search task, our method is shown to be both data and model parameter efficient.
It achieves the same quality with only 21.6M supervised in-domain data and
130.8M finetuned parameters, compared to the 731.1M model trained from scratch
on additional 300M supervised in-domain data.
- Abstract(参考訳): 基盤モデル(fms)は大規模に幅広いデータに基づいて訓練され、下流の幅広いタスクに適応できるが、研究コミュニティに大きな関心を寄せている。
異なるモダリティ、言語、アプリケーションドメインなどの多様なデータソースの恩恵を受け、基礎モデルは強力な一般化と知識伝達能力を示している。
本稿では,FMに基づく音声認識システムのための効率的なソリューション構築に向けた先駆的な研究を提案する。
我々は,最近開発した自己教師付きベストrqを事前学習に採用し,just hydraを用いたソースと非教師なしのターゲット領域データとの協調微調整を提案する。
fmエンコーダアダプタとデコーダは、少量の監視されたドメイン内データでターゲットドメインに微調整される。
大規模youtubeおよび音声検索タスクにおいて,本手法はデータおよびモデルパラメータの効率が良いことを示す。
21.6Mのドメイン内データと130.8Mの微調整パラメータで同じ品質を達成し、さらに300Mのドメイン内データをスクラッチからトレーニングした731.1Mモデルと比較した。
関連論文リスト
- Agile Multi-Source-Free Domain Adaptation [25.06352660046911]
Bi-level Attention ENsemble (Bi-ATEN)モジュールは、ドメイン内の重みとドメイン間のアンサンブル重みの両方を学習し、インスタンス特異性とドメイン整合性の微妙なバランスを達成する。
3%未満のトレーニングパラメータと8倍のスループットを持つ、挑戦的なベンチマークであるDomainNetでは、SOTA法と比較して、同等あるいは優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-03-08T05:17:10Z) - Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。
大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。
さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文 参考訳(メタデータ) (2023-10-13T18:27:33Z) - Leveraging Domain Relations for Domain Generalization [77.75140035123063]
D3Gは異なるドメイン間の関係を利用してドメイン固有のモデルを学ぶ。
D3Gは, 平均10.6%の性能向上を図りながら, 常に最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Variational Autoencoder Assisted Neural Network Likelihood RSRP
Prediction Model [2.881201648416745]
MDTデータとデジタルツイン(DT)を利用したRSRP予測のための生成モデルについて検討する。
実世界のデータを用いた提案モデルでは,実証モデルと比較して約20%以上の精度向上が示されている。
論文 参考訳(メタデータ) (2022-06-27T17:27:35Z) - InPars: Data Augmentation for Information Retrieval using Large Language
Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。
我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。
教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文 参考訳(メタデータ) (2022-02-10T16:52:45Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。