論文の概要: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2504.21015v2
- Date: Tue, 21 Oct 2025 06:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:05.426296
- Title: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- Title(参考訳): 検索するな, 生成する: 高密度検索における合成トレーニングデータのためのLLMのプロンプト
- Authors: Aarush Sinha,
- Abstract要約: 効果的な高密度検索モデルの訓練は、典型的には、大きな文書コーパスから抽出した強陰性(HN)の例に依存する。
本稿では,Large Language Model (LLM) を用いたエンドツーエンドパイプラインを提案する。
我々のデータセットは、数学、物理学、計算機科学、および関連する分野を含む様々な領域にまたがる7,250のarXiv抽象データからなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training effective dense retrieval models typically relies on hard negative (HN) examples mined from large document corpora using methods such as BM25 or cross-encoders (CE), which require full corpus access. We propose a corpus-free alternative: an end-to-end pipeline where a Large Language Model (LLM) first generates a query from a passage and then produces a hard negative example using only the generated query text. Our dataset comprises 7,250 arXiv abstracts spanning diverse domains including mathematics, physics, computer science, and related fields, serving as positive passages for query generation. We evaluate two fine-tuning configurations of DistilBERT for dense retrieval; one using LLM-generated hard negatives conditioned solely on the query, and another using negatives generated with both the query and its positive document as context. Compared to traditional corpus-based mining methods {LLM Query $\rightarrow$ BM25 HN and LLM Query $\rightarrow$ CE HN on multiple BEIR benchmark datasets, our all-LLM pipeline outperforms strong lexical mining baselines and achieves performance comparable to cross-encoder-based methods, demonstrating the potential of corpus-free hard negative generation for retrieval model training.
- Abstract(参考訳): 効果的な高密度検索モデルの訓練は、一般的に、BM25やクロスエンコーダ(CE)といった、完全なコーパスアクセスを必要とする手法を用いて、大きなドキュメントコーパスから抽出されたハードネガティブ(HN)の例に依存している。
コーパスフリーのパイプラインとして,大言語モデル(LLM)が最初にパスからクエリを生成し,生成したクエリテキストのみを用いて負の厳しいサンプルを生成するパイプラインを提案する。
我々のデータセットは、数学、物理学、計算機科学、および関連分野を含む様々な領域にまたがる7,250のarXiv抽象データからなり、クエリ生成の肯定的な経路として機能する。
本研究では,厳密な検索のための DistilBERT の微調整構成を2つ評価する。一方は,クエリのみに条件付けした LLM 生成のハードネガティブと,他方はクエリと正のドキュメントをコンテキストとして生成した負の2つを用いて評価する。
従来のコーパスベースのマイニングメソッドである {LLM Query $\rightarrow$ BM25 HN and LLM Query $\rightarrow$ CE HN on multiple BEIR benchmark datasets と比較すると、我々の全LLMパイプラインは強い語彙的マイニングベースラインを上回り、クロスエンコーダベースのメソッドに匹敵するパフォーマンスを実現し、コーパスのないハードネガティブな生成の可能性を示している。
関連論文リスト
- SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process Annotation [30.096211889103998]
本稿では、アノテーションのコストを大幅に削減する新しい圧縮ベースのアプローチであるSCOPE(Step Compression for Process Estimation)を紹介する。
我々は,従来の計算資源の5%しか必要とせず,196Kのサンプルを含む大規模データセットを構築した。
実験の結果、私たちのデータセットでトレーニングされたPRMは、Best-of-N戦略とProcessBenchの両方で既存の自動アノテーションアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2025-05-20T14:31:15Z) - Optimizing Retrieval Augmented Generation for Object Constraint Language [3.4777703321218225]
OCLはモデルベースシステムエンジニアリング(MBSE)に必須であるが、手動でOCLルールを記述するのは複雑で時間を要する。
OCLBERT生成に対する3つの異なる検索戦略の影響を評価する。
検索は生成精度を向上させることができるが,その有効性は検索方法と検索したチャンク数に依存する。
論文 参考訳(メタデータ) (2025-05-19T14:00:10Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Let your LLM generate a few tokens and you will reduce the need for retrieval [1.0878040851638]
大規模言語モデル(LLM)は、パラメトリックメモリに解答がすでに格納されているかどうかをトレーニングすることができる。
IK(I Know)スコアを計算するためにLLM-as-a-judgeを蒸留する。
論文 参考訳(メタデータ) (2024-12-16T08:13:14Z) - Traceable LLM-based validation of statements in knowledge graphs [0.0]
本稿では,LPMを用いたRDFトリプルの検証手法を提案する。
LLMは、ユーザプロンプトに対する応答を構築するために使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
論文 参考訳(メタデータ) (2024-09-11T12:27:41Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction [4.818309069556584]
イベント抽出は、研究者が新しい研究課題に対する任意のイベントクラスを柔軟に指定することを可能にする。
現在のゼロショットEE法は、単純な生成言語モデル(LM)の単純なゼロショットアプローチと同様に、ダイアドイベント抽出では不十分である。
我々はこれらの課題に,多段階の命令追従型LMパイプラインを新たに導入して対処する。
我々はパイプラインの国際関係解析への応用を実演する。
論文 参考訳(メタデータ) (2023-05-24T11:41:33Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。