論文の概要: DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation
- arxiv url: http://arxiv.org/abs/2404.02489v1
- Date: Wed, 3 Apr 2024 05:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:29:43.532883
- Title: DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation
- Title(参考訳): DUQGen:合成クエリ生成の多様化によるニューラルネットワークランカの効果的な教師なしドメイン適応
- Authors: Ramraj Chandradevan, Kaustubh D. Dhole, Eugene Agichtein,
- Abstract要約: MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。
本稿では,従来の文献における重要なギャップに対処する,ランク付けのための教師なしドメイン適応手法であるDUQGenを提案する。
- 参考スコア(独自算出の注目度): 8.661419320202787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art neural rankers pre-trained on large task-specific training data such as MS-MARCO, have been shown to exhibit strong performance on various ranking tasks without domain adaptation, also called zero-shot. However, zero-shot neural ranking may be sub-optimal, as it does not take advantage of the target domain information. Unfortunately, acquiring sufficiently large and high quality target training data to improve a modern neural ranker can be costly and time-consuming. To address this problem, we propose a new approach to unsupervised domain adaptation for ranking, DUQGen, which addresses a critical gap in prior literature, namely how to automatically generate both effective and diverse synthetic training data to fine tune a modern neural ranker for a new domain. Specifically, DUQGen produces a more effective representation of the target domain by identifying clusters of similar documents; and generates a more diverse training dataset by probabilistic sampling over the resulting document clusters. Our extensive experiments, over the standard BEIR collection, demonstrate that DUQGen consistently outperforms all zero-shot baselines and substantially outperforms the SOTA baselines on 16 out of 18 datasets, for an average of 4% relative improvement across all datasets. We complement our results with a thorough analysis for more in-depth understanding of the proposed method's performance and to identify promising areas for further improvements.
- Abstract(参考訳): MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。
しかし、ゼロショットニューラルネットワークのランク付けは、対象のドメイン情報を活用できないため、準最適である可能性がある。
残念なことに、現代のニューラルランサーを改善するために十分な大容量で高品質な目標トレーニングデータを取得することは、コストと時間を要する可能性がある。
この問題に対処するために,従来の文献における重要なギャップ,すなわち,新しいドメインのための最新のニューラルネットワークローダを微調整するために,効果的かつ多様な合成トレーニングデータの両方を自動的に生成する方法に対処する,教師なしドメイン適応のための新しいアプローチであるDUQGenを提案する。
具体的には、DUQGenは、類似したドキュメントのクラスタを識別することで、ターゲットドメインをより効果的に表現し、結果のドキュメントクラスタを確率的サンプリングすることで、より多様なトレーニングデータセットを生成する。
標準的なBEIRコレクションよりも広範な実験では、DUQGenはゼロショットベースラインを一貫して上回り、18データセット中16データセットでSOTAベースラインを大幅に上回り、すべてのデータセットで平均4%の相対的な改善が達成されている。
本研究は,提案手法の性能をより深く理解し,さらなる改善を期待できる領域を特定するための詳細な分析により,その結果を補完するものである。
関連論文リスト
- Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - CNN Feature Map Augmentation for Single-Source Domain Generalization [6.053629733936548]
ドメイン・ジェネリゼーション(DG)はここ数年で大きな注目を集めている。
DGの目標は、トレーニング中に利用可能なものと異なるデータ分散を提示した場合、引き続き正常に機能するモデルを作成することだ。
単一ソースDG画像分類設定における畳み込みニューラルネットワークアーキテクチャの代替正則化手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T08:48:17Z) - Enhancing Few-shot NER with Prompt Ordering based Data Augmentation [59.69108119752584]
本稿では,PODA(Prompt Ordering Based Data Augmentation)手法を提案する。
3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-19T16:25:43Z) - Model-based Transfer Learning for Automatic Optical Inspection based on
domain discrepancy [9.039797705929363]
本研究は、モデルベースTLをドメイン類似性により適用し、ターゲットドメインとソースドメインの両方における全体的なパフォーマンスとデータ拡張を改善する。
我々の研究は、ベンチマークデータセットを用いたTLと比較してF1スコアとPR曲線が最大20%増加することを示唆している。
論文 参考訳(メタデータ) (2023-01-14T11:32:39Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。