論文の概要: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2504.21015v1
- Date: Sun, 20 Apr 2025 08:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 21:23:29.783153
- Title: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- Title(参考訳): 検索するな, 生成する: 高密度検索における合成トレーニングデータのためのLLMのプロンプト
- Authors: Aarush Sinha,
- Abstract要約: 効果的な高密度検索モデルの訓練は、しばしば文書コーパスから抽出された強陰性(HN)の例に依存する。
本稿では,Large Language Model (LLM) が最初にパスからクエリを生成し,その後,そのクエリテキストをエンフォニーに使用して,難解なサンプルを生成する,エンド・ツー・エンドのパイプラインについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training effective dense retrieval models often relies on hard negative (HN) examples mined from the document corpus via methods like BM25 or cross-encoders (CE), processes that can be computationally demanding and require full corpus access. This paper introduces a different approach, an end-to-end pipeline where a Large Language Model (LLM) first generates a query from a passage, and then generates a hard negative example using \emph{only} that query text. This corpus-free negative generation contrasts with standard mining techniques. We evaluated this \textsc{LLM Query $\rightarrow$ LLM HN} approach against traditional \textsc{LLM Query $\rightarrow$ BM25 HN} and \textsc{LLM Query $\rightarrow$ CE HN} pipelines using E5-Base and GTE-Base models on several BEIR benchmark datasets. Our results show the proposed all-LLM pipeline achieves performance identical to both the BM25 and the computationally intensive CE baselines across nDCG@10, Precision@10, and Recall@100 metrics. This demonstrates that our corpus-free negative generation method matches the effectiveness of complex, corpus-dependent mining techniques, offering a potentially simpler and more efficient pathway for training high-performance retrievers without sacrificing results. We make the dataset including the queries and the hard-negatives for all three methods publicly available https://huggingface.co/collections/chungimungi/arxiv-hard-negatives-68027bbc601ff6cc8eb1f449.
- Abstract(参考訳): 効果的な高密度検索モデルの訓練は、BM25やクロスエンコーダ(CE)などの手法を通じて文書コーパスから抽出されたハードネガティブ(HN)の例に頼っていることが多い。
本稿では,Large Language Model (LLM) が最初にパスからクエリを生成し,次に,テキストを問合せするemph{only} を用いて,強い負の例を生成する,エンド・ツー・エンドのパイプラインについて紹介する。
このコーパスフリーな負生成は、標準的な鉱業技術とは対照的である。
いくつかのBEIRベンチマークデータセット上でE5-BaseおよびGTE-Baseモデルを用いて、従来の \textsc{LLM Query $\rightarrow$ BM25 HN} と \textsc{LLM Query $\rightarrow$ CE HN} パイプラインに対して、この \textsc{LLM Query $\rightarrow$ LLM HN} アプローチを評価した。
提案した全LLMパイプラインは,nDCG@10,Precision@10,Recall@100の計測値にまたがる計算集約CEベースラインとBM25と同じ性能を実現する。
これにより, コーパスフリーな負生成法は, 複雑なコーパス依存マイニング手法の有効性と一致し, 結果の犠牲を伴わずに, 高性能レトリバーの訓練方法として, よりシンプルで効率的な経路が提供される可能性が示唆された。
クエリと3つのメソッドのハードネガティブを含むデータセットを公開します。https://huggingface.co/collections/chungimungi/arxiv-hard- negatives-68027bbc601ff6cc8eb1f449。
関連論文リスト
- Let your LLM generate a few tokens and you will reduce the need for retrieval [1.0878040851638]
大規模言語モデル(LLM)は、パラメトリックメモリに解答がすでに格納されているかどうかをトレーニングすることができる。
IK(I Know)スコアを計算するためにLLM-as-a-judgeを蒸留する。
論文 参考訳(メタデータ) (2024-12-16T08:13:14Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction [4.818309069556584]
イベント抽出は、研究者が新しい研究課題に対する任意のイベントクラスを柔軟に指定することを可能にする。
現在のゼロショットEE法は、単純な生成言語モデル(LM)の単純なゼロショットアプローチと同様に、ダイアドイベント抽出では不十分である。
我々はこれらの課題に,多段階の命令追従型LMパイプラインを新たに導入して対処する。
我々はパイプラインの国際関係解析への応用を実演する。
論文 参考訳(メタデータ) (2023-05-24T11:41:33Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。