論文の概要: Efficient Domain Adaptation for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2302.01496v1
- Date: Fri, 3 Feb 2023 02:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:50:52.924679
- Title: Efficient Domain Adaptation for Speech Foundation Models
- Title(参考訳): 音声基礎モデルの効率的なドメイン適応
- Authors: Bo Li, Dongseong Hwang, Zhouyuan Huo, Junwen Bai, Guru Prakash, Tara
N. Sainath, Khe Chai Sim, Yu Zhang, Wei Han, Trevor Strohman, Francoise
Beaufays
- Abstract要約: 本稿では,FMに基づく音声認識システムのための効率的なソリューション構築に向けた先駆的な研究について述べる。
我々は、最近開発された自己教師型BEST-RQを事前学習に適用し、ソースデータと教師なしターゲットドメインデータとの結合微調整を提案する。
大規模なYouTubeおよびVoice Searchタスクにおいて,本手法はデータとモデルパラメータの両方を効率よく行うことが示されている。
- 参考スコア(独自算出の注目度): 42.81357437023811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs), that are trained on broad data at scale and are
adaptable to a wide range of downstream tasks, have brought large interest in
the research community. Benefiting from the diverse data sources such as
different modalities, languages and application domains, foundation models have
demonstrated strong generalization and knowledge transfer capabilities. In this
paper, we present a pioneering study towards building an efficient solution for
FM-based speech recognition systems. We adopt the recently developed
self-supervised BEST-RQ for pretraining, and propose the joint finetuning with
both source and unsupervised target domain data using JUST Hydra. The FM
encoder adapter and decoder are then finetuned to the target domain with a
small amount of supervised in-domain data. On a large-scale YouTube and Voice
Search task, our method is shown to be both data and model parameter efficient.
It achieves the same quality with only 21.6M supervised in-domain data and
130.8M finetuned parameters, compared to the 731.1M model trained from scratch
on additional 300M supervised in-domain data.
- Abstract(参考訳): 基盤モデル(fms)は大規模に幅広いデータに基づいて訓練され、下流の幅広いタスクに適応できるが、研究コミュニティに大きな関心を寄せている。
異なるモダリティ、言語、アプリケーションドメインなどの多様なデータソースの恩恵を受け、基礎モデルは強力な一般化と知識伝達能力を示している。
本稿では,FMに基づく音声認識システムのための効率的なソリューション構築に向けた先駆的な研究を提案する。
我々は,最近開発した自己教師付きベストrqを事前学習に採用し,just hydraを用いたソースと非教師なしのターゲット領域データとの協調微調整を提案する。
fmエンコーダアダプタとデコーダは、少量の監視されたドメイン内データでターゲットドメインに微調整される。
大規模youtubeおよび音声検索タスクにおいて,本手法はデータおよびモデルパラメータの効率が良いことを示す。
21.6Mのドメイン内データと130.8Mの微調整パラメータで同じ品質を達成し、さらに300Mのドメイン内データをスクラッチからトレーニングした731.1Mモデルと比較した。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Style Adaptation for Domain-adaptive Semantic Segmentation [2.1365683052370046]
ドメインの不一致は、ターゲットドメインに適用した場合、ソースドメインデータに基づいてトレーニングされた一般的なネットワークモデルの性能を著しく低下させる。
パラメータ計算を必要とせず、自己学習に基づくUDA手法とシームレスに統合する。
提案手法は,GTA->Cityscapesデータセット上で76.93 mIoUの有意なUDA性能を達成し,過去の成果に比べて+1.03ポイント向上したことを示す。
論文 参考訳(メタデータ) (2024-04-25T02:51:55Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Agile Multi-Source-Free Domain Adaptation [25.06352660046911]
Bi-level Attention ENsemble (Bi-ATEN)モジュールは、ドメイン内の重みとドメイン間のアンサンブル重みの両方を学習し、インスタンス特異性とドメイン整合性の微妙なバランスを達成する。
3%未満のトレーニングパラメータと8倍のスループットを持つ、挑戦的なベンチマークであるDomainNetでは、SOTA法と比較して、同等あるいは優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-03-08T05:17:10Z) - Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。
大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。
さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文 参考訳(メタデータ) (2023-10-13T18:27:33Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。