論文の概要: Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training
- arxiv url: http://arxiv.org/abs/2104.01027v1
- Date: Fri, 2 Apr 2021 12:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:00:52.478385
- Title: Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training
- Title(参考訳): Robust wav2vec 2.0: 自己監督型事前トレーニングにおけるドメインシフトの分析
- Authors: Wei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko,
Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel
Synnaeve, Michael Auli
- Abstract要約: 事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
- 参考スコア(独自算出の注目度): 67.71228426496013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning of speech representations has been a very active
research area but most work is focused on a single domain such as read audio
books for which there exist large quantities of labeled and unlabeled data. In
this paper, we explore more general setups where the domain of the unlabeled
data for pre-training data differs from the domain of the labeled data for
fine-tuning, which in turn may differ from the test data domain. Our
experiments show that using target domain data during pre-training leads to
large performance improvements across a variety of setups. On a large-scale
competitive setup, we show that pre-training on unlabeled in-domain data
reduces the gap between models trained on in-domain and out-of-domain labeled
data by 66%-73%. This has obvious practical implications since it is much
easier to obtain unlabeled target domain data than labeled data. Moreover, we
find that pre-training on multiple domains improves generalization performance
on domains not seen during training. Code and models will be made available at
https://github.com/pytorch/fairseq.
- Abstract(参考訳): 音声表現の自己教師型学習は非常に活発な研究領域であるが、ほとんどの研究は、大量のラベル付きおよびラベルなしデータが存在する読み上げオーディオブックのような単一の領域に焦点を当てている。
本稿では,事前学習のためのラベルなしデータのドメインが,微調整のためのラベル付きデータのドメインと異なる,テストデータドメインとは異なる可能性のある,より一般的な設定について検討する。
実験により、事前トレーニング中にターゲットドメインデータを使用することで、様々な設定で大幅なパフォーマンス向上が期待できることがわかった。
大規模競争環境において,ラベル付きドメイン内データの事前学習により,ドメイン内モデルとドメイン外ラベルデータとのギャップを66%-73%削減できることを示す。
これはラベル付きデータよりもラベルなしのターゲットドメインデータを取得するのがずっと容易であるため、明らかに実用的な意味を持つ。
さらに,複数の領域での事前学習により,訓練中に見られない領域の一般化性能が向上することがわかった。
コードとモデルはhttps://github.com/pytorch/fairseqで利用可能になる。
関連論文リスト
- Task Oriented In-Domain Data Augmentation [38.525017729123114]
大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
論文 参考訳(メタデータ) (2024-06-24T14:58:11Z) - Connect, Not Collapse: Explaining Contrastive Learning for Unsupervised
Domain Adaptation [88.5448806952394]
我々は、対象ドメインのラベル付きデータと対象ドメインのラベルなしデータを用いて、対象ドメインの分類器を学習する、教師なしドメイン適応(UDA)を考える。
ラベル付きソースとターゲットデータの特徴を学習し,ラベル付きソースデータに微調整を行うコントラスト事前学習は,強いUDA手法と競合することを示す。
論文 参考訳(メタデータ) (2022-04-01T16:56:26Z) - A Survey of Unsupervised Domain Adaptation for Visual Recognition [2.8935588665357077]
ドメイン適応(DA)は、あるドメインから別のドメインに知識を移す際のドメインシフト問題を緩和することを目的としています。
Unsupervised DA (UDA) はラベル付きソースドメインとラベルなしターゲットドメインを扱う。
論文 参考訳(メタデータ) (2021-12-13T15:55:23Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - Domain Generalized Person Re-Identification via Cross-Domain Episodic
Learning [31.17248105464821]
本稿では、メタ学習戦略を進化させ、観測されたソースドメインラベル付きデータを活用するためのエピソード学習手法を提案する。
4つのベンチマークデータセットに対する実験により,最先端技術よりも提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2020-10-19T14:42:29Z) - Improving Adversarial Robustness via Unlabeled Out-of-Domain Data [30.58040078862511]
本研究では,ドメイン外のラベルなしデータを活用することで,敵のロバスト性を向上する方法について検討する。
ラベル付きデータと同じドメインではなく、シフトしたドメインからラベル付きデータがやってくると、より良い敵のロバスト性が得られるような設定を示す。
論文 参考訳(メタデータ) (2020-06-15T15:25:56Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z) - Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。
既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。
我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-08T14:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。