論文の概要: Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders
- arxiv url: http://arxiv.org/abs/2311.09765v1
- Date: Thu, 16 Nov 2023 10:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:55:46.750127
- Title: Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders
- Title(参考訳): Back to Basics: デンスエンコーダのドメイン外検索を改善するためのシンプルなレシピ
- Authors: Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo
- Abstract要約: 得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
- 参考スコア(独自算出の注目度): 63.28408887247742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevailing research practice today often relies on training dense retrievers
on existing large datasets such as MSMARCO and then experimenting with ways to
improve zero-shot generalization capabilities to unseen domains. While prior
work has tackled this challenge through resource-intensive steps such as data
augmentation, architectural modifications, increasing model size, or even
further base model pretraining, comparatively little investigation has examined
whether the training procedures themselves can be improved to yield better
generalization capabilities in the resulting models. In this work, we recommend
a simple recipe for training dense encoders: Train on MSMARCO with
parameter-efficient methods, such as LoRA, and opt for using in-batch negatives
unless given well-constructed hard negatives. We validate these recommendations
using the BEIR benchmark and find results are persistent across choice of dense
encoder and base model size and are complementary to other resource-intensive
strategies for out-of-domain generalization such as architectural modifications
or additional pretraining. We hope that this thorough and impartial study
around various training techniques, which augments other resource-intensive
methods, offers practical insights for developing a dense retrieval model that
effectively generalizes, even when trained on a single dataset.
- Abstract(参考訳): 今日の一般的な研究慣行は、msmarcoのような既存の大規模データセットに密集したレトリバーを訓練し、未発見のドメインに対してゼロショット一般化機能を改善する方法を実験することに依存している。
先行研究では、データ強化、アーキテクチャ修正、モデルサイズの増加、さらにベースモデル事前訓練といったリソース集約的なステップを通じてこの課題に取り組んできたが、トレーニング手順自体を改良して、結果モデルにより良い一般化能力をもたらすことができるかどうかについては、比較的調査されていない。
そこで本研究では,loraのようなパラメータ効率のよい手法でmsmarcoをトレーニングし,構造化されたハードネガが与えられない限り,バッチ内ネガを使用する方法を選択するという,高密度エンコーダのトレーニングのためのシンプルなレシピを提案する。
BEIRベンチマークを用いてこれらのレコメンデーションを検証し、高密度エンコーダとベースモデルサイズを選択した上で、アーキテクチャ修正や追加事前学習といったドメイン外一般化のための他のリソース集約戦略を補完する結果が得られた。
他のリソース集約的手法を補強する様々なトレーニングテクニックに関するこの徹底的で公平な研究は、単一のデータセットでトレーニングしても効果的に一般化する高密度検索モデルを開発するための実用的な洞察を提供することを願っている。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Exploiting All Samples in Low-Resource Sentence Classification: Early Stopping and Initialization Parameters [6.368871731116769]
本研究では,データやモデルの再設計を伴わないラベル付きサンプルの活用方法について論じる。
重量平均化法を用いてモデルを初期化する統合手法を提案し,全てのサンプルを非バリデーション停止法を用いて訓練する。
本結果は,トレーニング戦略の重要性を強調し,低リソース環境における統合手法が第一歩となることを示唆している。
論文 参考訳(メタデータ) (2021-11-12T22:31:47Z) - Sample-based Regularization: A Transfer Learning Strategy Toward Better
Generalization [8.432864879027724]
少量のデータでディープニューラルネットワークをトレーニングすることは、難しい問題である。
私たちがよく直面する現実的な難題の1つは、多くのサンプルを集めることです。
大規模なデータセットでトレーニングされたソースモデルを使用することで、トレーニングデータの不足に起因する過度な適合を軽減することができる。
論文 参考訳(メタデータ) (2020-07-10T06:02:05Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。