論文の概要: Conventional Contrastive Learning Often Falls Short: Improving Dense Retrieval with Cross-Encoder Listwise Distillation and Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.19274v1
- Date: Sun, 25 May 2025 19:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.026136
- Title: Conventional Contrastive Learning Often Falls Short: Improving Dense Retrieval with Cross-Encoder Listwise Distillation and Synthetic Data
- Title(参考訳): 従来のコントラスト学習が短くなる:クロスエンコーダによる難読度向上と合成データ
- Authors: Manveer Singh Tamber, Suleman Kazi, Vivek Sourabh, Jimmy Lin,
- Abstract要約: コーパス特異的微調整レンズによる埋め込みモデルの検索効率の改善について検討した。
従来のInfoNCEのコントラスト損失を用いた微調整は、最先端モデルの有効性を低下させることが多い。
我々は、BERT埋め込みモデル間の最先端の有効性を実現する埋め込みモデルをトレーニングするために、我々のアプローチを利用する。
- 参考スコア(独自算出の注目度): 43.81779293196647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate improving the retrieval effectiveness of embedding models through the lens of corpus-specific fine-tuning. Prior work has shown that fine-tuning with queries generated using a dataset's retrieval corpus can boost retrieval effectiveness for the dataset. However, we find that surprisingly, fine-tuning using the conventional InfoNCE contrastive loss often reduces effectiveness in state-of-the-art models. To overcome this, we revisit cross-encoder listwise distillation and demonstrate that, unlike using contrastive learning alone, listwise distillation can help more consistently improve retrieval effectiveness across multiple datasets. Additionally, we show that synthesizing more training data using diverse query types (such as claims, keywords, and questions) yields greater effectiveness than using any single query type alone, regardless of the query type used in evaluation. Our findings further indicate that synthetic queries offer comparable utility to human-written queries for training. We use our approach to train an embedding model that achieves state-of-the-art effectiveness among BERT embedding models. We release our model and both query generation and training code to facilitate further research.
- Abstract(参考訳): コーパス特異的微調整レンズによる埋め込みモデルの検索効率の改善について検討した。
以前の研究では、データセットの検索コーパスを使用して生成されたクエリによる微調整によって、データセットの検索効率が向上することが示されている。
しかし、従来のInfoNCEのコントラスト損失を用いた驚くほど微調整は、最先端モデルの有効性を低下させることが多い。
これを解決するために、クロスエンコーダリストワイズ蒸留を再検討し、コントラスト学習のみとは異なり、リストワイズ蒸留は複数のデータセット間での検索効率をより一貫した改善に役立てることができることを示した。
さらに,クエリタイプ(クレーム,キーワード,質問など)を多用してトレーニングデータを合成することで,評価に使用するクエリタイプに関係なく,単一のクエリタイプを単独で使用するよりも高い効率性が得られることを示す。
さらに, 合成クエリは, 人間の手書きクエリに匹敵する有用性を提供することを示した。
我々は、BERT埋め込みモデル間の最先端の有効性を実現する埋め込みモデルをトレーニングするために、我々のアプローチを利用する。
我々は、我々のモデルとクエリ生成およびトレーニングコードをリリースし、さらなる研究を促進する。
関連論文リスト
- Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation [43.81779293196647]
標準的な微調整手法は、ドメイン固有のシナリオであっても、改善するよりも、予想外に効率を低下させる可能性があることを示す。
そこで我々は,教師のクロスエンコーダからリストワイズを抽出し,リッチな関連信号を利用して学習者を微調整する訓練戦略を検討する。
また,本研究の結果から,合成クエリはトレーニングユーティリティにおいて人書きクエリと競合する可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-27T03:07:49Z) - READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - PairDistill: Pairwise Relevance Distillation for Dense Retrieval [35.067998820937284]
本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。
類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:51:42Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Bootstrapping Relation Extractors using Syntactic Search by Examples [47.11932446745022]
非NLP専門家によって迅速に実行できるトレーニングデータセットのブートストラッププロセスを提案する。
フレンドリーなバイサンプル構文を公開する構文グラフよりも検索エンジンを利用する。
得られたモデルは,手作業による注釈付きデータや遠隔監視から得られたデータに基づいて訓練されたモデルと競合することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。