論文の概要: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of
Dense Retrieval
- arxiv url: http://arxiv.org/abs/2112.07577v1
- Date: Tue, 14 Dec 2021 17:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 17:58:44.524764
- Title: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of
Dense Retrieval
- Title(参考訳): GPL:Dense Retrievalの教師なしドメイン適応のための生成擬似ラベル
- Authors: Kexin Wang, Nandan Thakur, Nils Reimers, Iryna Gurevych
- Abstract要約: 我々は、新しい教師なしドメイン適応手法Generative Pseudo Labeling (GPL)を提案する。
6つの代表的なドメイン特化データセットにおいて、提案手法は最先端の高密度検索手法を最大8.9ポイントのnDCG@10で上回っている。
- 参考スコア(独自算出の注目度): 43.43401655948693
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dense retrieval approaches can overcome the lexical gap and lead to
significantly improved search results. However, they require large amounts of
training data which is not available for most domains. As shown in previous
work (Thakur et al., 2021b), the performance of dense retrievers severely
degrades under a domain shift. This limits the usage of dense retrieval
approaches to only a few domains with large training datasets.
In this paper, we propose the novel unsupervised domain adaptation method
Generative Pseudo Labeling (GPL), which combines a query generator with pseudo
labeling from a cross-encoder. On six representative domain-specialized
datasets, we find the proposed GPL can outperform an out-of-the-box
state-of-the-art dense retrieval approach by up to 8.9 points nDCG@10. GPL
requires less (unlabeled) data from the target domain and is more robust in its
training than previous methods.
We further investigate the role of six recent pre-training methods in the
scenario of domain adaptation for retrieval tasks, where only three could yield
improved results. The best approach, TSDAE (Wang et al., 2021) can be combined
with GPL, yielding another average improvement of 1.0 points nDCG@10 across the
six tasks.
- Abstract(参考訳): 難解な検索手法は語彙的ギャップを克服し、検索結果を大幅に改善する。
しかし、ほとんどのドメインでは利用できない大量のトレーニングデータが必要である。
前述したように(Thakur et al., 2021b)、高密度レトリバーの性能はドメインシフトによって著しく低下する。
これにより、大規模なトレーニングデータセットを持つ少数のドメインに限定される。
本稿では,クエリ生成器とクロスエンコーダからの擬似ラベリングを組み合わせた,非教師なしドメイン適応法生成型擬似ラベリング(gpl)を提案する。
6つの代表的なドメイン特化データセットにおいて、提案されたGPLは8.9ポイントのnDCG@10で最先端の高密度検索手法より優れていることが判明した。
gplは、対象ドメインからの(ラベルなし)データが少なく、以前の方法よりもトレーニングが堅牢である。
さらに,検索作業におけるドメイン適応のシナリオにおいて,最近の6つの事前学習手法が果たす役割について検討した。
最善のアプローチであるtsdae(wang et al., 2021)はgplと組み合わせることができ、6つのタスクで1.0ポイントのndcg@10が改善される。
関連論文リスト
- Improving Domain Adaptation Through Class Aware Frequency Transformation [15.70058524548143]
Unsupervised Domain Adaptation (UDA)アルゴリズムのほとんどは、ラベル付きソースと非ラベル付きターゲットドメインの間のグローバルドメインシフトの削減に重点を置いている。
本稿では,従来の画像処理手法であるCAFT(Class Aware Frequency Transformation)に基づく新しい手法を提案する。
CAFTは、既存のUDAアルゴリズムの全体的な性能を改善するために、擬似ラベルに基づく一貫した低周波スワップを使用する。
論文 参考訳(メタデータ) (2024-07-28T18:16:41Z) - Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap [11.96884248631201]
教師なし領域一般化問題のマルチモーダル版に取り組む。
我々のフレームワークは、ソースデータセットを共同視覚言語空間で正確かつ効率的に検索できるという前提に依存している。
我々は,テキストクエリと粗い量子化に使用される画像セントロイドとの距離が大きいため,近接した近接探索が低リコールに悩まされていることを理論的に示す。
論文 参考訳(メタデータ) (2024-02-06T21:29:37Z) - Gradual Source Domain Expansion for Unsupervised Domain Adaptation [45.207132297204424]
教師なしドメイン適応(UDA)は、ソースデータセットからターゲットデータセットに知識を転送することで、大きなラベル付きデータセットの必要性を克服しようとする。
本稿では,この問題を解決するために,段階的ソース領域拡張(GSDE)アルゴリズムを提案する。
GSDEはUDAタスクをスクラッチから数回トレーニングし、毎回ネットワークウェイトを再起動するが、毎回ターゲットデータでソースデータセットを拡張する。
論文 参考訳(メタデータ) (2023-11-16T06:18:35Z) - AdaTriplet-RA: Domain Matching via Adaptive Triplet and Reinforced
Attention for Unsupervised Domain Adaptation [15.905869933337101]
教師なしドメイン適応(Unsupervised Domain Adaption、UDA)は、ソースドメインのデータとアノテーションが利用できるが、トレーニング中にラベル付けされていないターゲットデータにのみアクセスできるトランスファー学習タスクである。
本稿では、ドメイン間サンプルマッチング方式を用いて、教師なしドメイン適応タスクを改善することを提案する。
ドメイン間サンプルに合わせるために,広く利用され,堅牢なTriplet損失を適用した。
トレーニング中に発生する不正確な擬似ラベルの破滅的効果を低減するため,信頼度の高い擬似ラベルを自動的に選択し,段階的に改良する新しい不確実性測定法を提案する。
論文 参考訳(メタデータ) (2022-11-16T13:04:24Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Inductive Unsupervised Domain Adaptation for Few-Shot Classification via
Clustering [16.39667909141402]
ショットの分類は、多様なドメインに適応する必要がある場合、苦労する傾向があります。
本稿では、ClusteringによるFew-shot分類のためのドメイン適応性能を改善するためのフレームワークDaFeCを紹介する。
提案手法は, 絶対利得(分類精度)が4.95%, 9.55%, 3.99%, 11.62%であった。
論文 参考訳(メタデータ) (2020-06-23T08:17:48Z) - Sparsely-Labeled Source Assisted Domain Adaptation [64.75698236688729]
本稿では,Sparsely-Labeled Source Assisted Domain Adaptation (SLSA-DA)アルゴリズムを提案する。
ラベル不足の問題により、ソースドメインとターゲットドメインの両方で投影されたクラスタリングが行われる。
論文 参考訳(メタデータ) (2020-05-08T15:37:35Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。