論文の概要: SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2412.17250v1
- Date: Mon, 23 Dec 2024 03:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:26.467901
- Title: SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval
- Title(参考訳): SyNeg: 密度検索のためのLCM駆動型合成ハードNegatives
- Authors: Xiaopeng Li, Xiangyang Li, Hao Zhang, Zhaocheng Du, Pengyue Jia, Yichao Wang, Xiangyu Zhao, Huifeng Guo, Ruiming Tang,
- Abstract要約: Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。
大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。
本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.971786380884126
- License:
- Abstract: The performance of Dense retrieval (DR) is significantly influenced by the quality of negative sampling. Traditional DR methods primarily depend on naive negative sampling techniques or on mining hard negatives through external retriever and meticulously crafted strategies. However, naive negative sampling often fails to adequately capture the accurate boundaries between positive and negative samples, whereas existing hard negative sampling methods are prone to false negatives, resulting in performance degradation and training instability. Recent advancements in large language models (LLMs) offer an innovative solution to these challenges by generating contextually rich and diverse negative samples. In this work, we present a framework that harnesses LLMs to synthesize high-quality hard negative samples. We first devise a \textit{multi-attribute self-reflection prompting strategy} to direct LLMs in hard negative sample generation. Then, we implement a \textit{hybrid sampling strategy} that integrates these synthetic negatives with traditionally retrieved negatives, thereby stabilizing the training process and improving retrieval performance. Extensive experiments on five benchmark datasets demonstrate the efficacy of our approach, and code is also publicly available.
- Abstract(参考訳): Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。
従来のDR法は主に、単純でネガティブなサンプリング技術や、外部のレトリバーや細心の注意を払って作り上げた戦略によるハードネガティブのマイニングに依存している。
しかし, 正と負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することによって、これらの課題に対する革新的な解決策を提供する。
本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
まず, 強陰性サンプル生成において LLM を誘導するための自己回帰促進戦略を考案した。
そこで我々は,これらの合成陰性と伝統的に回収された負とを統合し,トレーニングプロセスの安定化と検索性能の向上を図った「textit{hybrid sample strategy」を実装した。
5つのベンチマークデータセットに対する大規模な実験は、我々のアプローチの有効性を示し、コードも公開されている。
関連論文リスト
- Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval [126.22182758461244]
評価結果によると, 正の値にランク付けされた負の値は, 一般的にはより情報的であり, 偽陰の可能性が低いことがわかった。
そこで本研究では,よりあいまいな負のサンプリングに新しいサンプリング確率分布を組み込んだ,単純な曖昧な負のサンプリング手法であるSimANSを提案する。
論文 参考訳(メタデータ) (2022-10-21T07:18:05Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z) - Hard Negative Sampling Strategies for Contrastive Representation
Learning [4.1531215150301035]
UnReMixは、アンカーの類似性、モデルの不確実性、代表性を考慮に入れた、ハードネガティブなサンプリング戦略である。
いくつかのベンチマークによる実験結果から,UnReMixは正のサンプル選択を改良し,その後,最先端のコントラスト学習法と比較した場合の下流性能が向上することが示された。
論文 参考訳(メタデータ) (2022-06-02T17:55:15Z) - Rethinking Negative Sampling for Unlabeled Entity Problem in Named
Entity Recognition [47.273602658066196]
ラベルのないエンティティは、名前付きエンティティ認識モデルのパフォーマンスを著しく劣化させる。
我々は、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。
負サンプリングのための重み付き適応サンプリング分布を提案する。
論文 参考訳(メタデータ) (2021-08-26T07:02:57Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。