論文の概要: Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation
- arxiv url: http://arxiv.org/abs/2502.19712v1
- Date: Thu, 27 Feb 2025 03:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:29.613090
- Title: Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation
- Title(参考訳): リスナー蒸留とLLMデータ拡張を専門とする高密度検索モデル
- Authors: Manveer Singh Tamber, Suleman Kazi, Vivek Sourabh, Jimmy Lin,
- Abstract要約: 標準的な微調整手法は、ドメイン固有のシナリオであっても、改善するよりも、予想外に効率を低下させる可能性があることを示す。
そこで我々は,教師のクロスエンコーダからリストワイズを抽出し,リッチな関連信号を利用して学習者を微調整する訓練戦略を検討する。
また,本研究の結果から,合成クエリはトレーニングユーティリティにおいて人書きクエリと競合する可能性が示唆された。
- 参考スコア(独自算出の注目度): 43.81779293196647
- License:
- Abstract: While the current state-of-the-art dense retrieval models exhibit strong out-of-domain generalization, they might fail to capture nuanced domain-specific knowledge. In principle, fine-tuning these models for specialized retrieval tasks should yield higher effectiveness than relying on a one-size-fits-all model, but in practice, results can disappoint. We show that standard fine-tuning methods using an InfoNCE loss can unexpectedly degrade effectiveness rather than improve it, even for domain-specific scenarios. This holds true even when applying widely adopted techniques such as hard-negative mining and negative de-noising. To address this, we explore a training strategy that uses listwise distillation from a teacher cross-encoder, leveraging rich relevance signals to fine-tune the retriever. We further explore synthetic query generation using large language models. Through listwise distillation and training with a diverse set of queries ranging from natural user searches and factual claims to keyword-based queries, we achieve consistent effectiveness gains across multiple datasets. Our results also reveal that synthetic queries can rival human-written queries in training utility. However, we also identify limitations, particularly in the effectiveness of cross-encoder teachers as a bottleneck. We release our code and scripts to encourage further research.
- Abstract(参考訳): 現在の最先端の高密度検索モデルでは領域外一般化が強いが、ドメイン固有知識の獲得に失敗する可能性がある。
原則として、これらのモデルを専門的な検索タスクのために微調整すると、一大のモデルに頼るよりも高い効率が得られるが、実際、結果は失望することがある。
ドメイン固有のシナリオであっても、InfoNCE損失を用いた標準的な微調整手法は、改善よりも予想外に効率を低下させる可能性があることを示す。
これは、強陰性鉱業や負の脱ノイズといった広く採用されている技術にも当てはまる。
そこで本研究では,教師のクロスエンコーダからリストワイズ蒸留を取り入れた学習戦略について検討する。
大規模言語モデルを用いた合成クエリ生成についても検討する。
自然のユーザ検索や事実に基づくクレームからキーワードベースのクレームまで,さまざまなクエリによるリストワイズ蒸留とトレーニングを通じて,複数のデータセット間で一貫した効率向上を実現している。
また,本研究の結果から,合成クエリはトレーニングユーティリティにおいて人書きクエリと競合する可能性が示唆された。
しかし、特にクロスエンコーダの教師がボトルネックとなる場合の限界も特定できる。
さらなる研究を促進するために、コードとスクリプトをリリースします。
関連論文リスト
- Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation [44.93777271276723]
擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - Bootstrapping Relation Extractors using Syntactic Search by Examples [47.11932446745022]
非NLP専門家によって迅速に実行できるトレーニングデータセットのブートストラッププロセスを提案する。
フレンドリーなバイサンプル構文を公開する構文グラフよりも検索エンジンを利用する。
得られたモデルは,手作業による注釈付きデータや遠隔監視から得られたデータに基づいて訓練されたモデルと競合することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。