論文の概要: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2504.21015v1
- Date: Sun, 20 Apr 2025 08:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 21:23:29.783153
- Title: Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval
- Title(参考訳): 検索するな, 生成する: 高密度検索における合成トレーニングデータのためのLLMのプロンプト
- Authors: Aarush Sinha,
- Abstract要約: 効果的な高密度検索モデルの訓練は、しばしば文書コーパスから抽出された強陰性(HN)の例に依存する。
本稿では,Large Language Model (LLM) が最初にパスからクエリを生成し,その後,そのクエリテキストをエンフォニーに使用して,難解なサンプルを生成する,エンド・ツー・エンドのパイプラインについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training effective dense retrieval models often relies on hard negative (HN) examples mined from the document corpus via methods like BM25 or cross-encoders (CE), processes that can be computationally demanding and require full corpus access. This paper introduces a different approach, an end-to-end pipeline where a Large Language Model (LLM) first generates a query from a passage, and then generates a hard negative example using \emph{only} that query text. This corpus-free negative generation contrasts with standard mining techniques. We evaluated this \textsc{LLM Query $\rightarrow$ LLM HN} approach against traditional \textsc{LLM Query $\rightarrow$ BM25 HN} and \textsc{LLM Query $\rightarrow$ CE HN} pipelines using E5-Base and GTE-Base models on several BEIR benchmark datasets. Our results show the proposed all-LLM pipeline achieves performance identical to both the BM25 and the computationally intensive CE baselines across nDCG@10, Precision@10, and Recall@100 metrics. This demonstrates that our corpus-free negative generation method matches the effectiveness of complex, corpus-dependent mining techniques, offering a potentially simpler and more efficient pathway for training high-performance retrievers without sacrificing results. We make the dataset including the queries and the hard-negatives for all three methods publicly available https://huggingface.co/collections/chungimungi/arxiv-hard-negatives-68027bbc601ff6cc8eb1f449.
- Abstract(参考訳): 効果的な高密度検索モデルの訓練は、BM25やクロスエンコーダ(CE)などの手法を通じて文書コーパスから抽出されたハードネガティブ(HN)の例に頼っていることが多い。
本稿では,Large Language Model (LLM) が最初にパスからクエリを生成し,次に,テキストを問合せするemph{only} を用いて,強い負の例を生成する,エンド・ツー・エンドのパイプラインについて紹介する。
このコーパスフリーな負生成は、標準的な鉱業技術とは対照的である。
いくつかのBEIRベンチマークデータセット上でE5-BaseおよびGTE-Baseモデルを用いて、従来の \textsc{LLM Query $\rightarrow$ BM25 HN} と \textsc{LLM Query $\rightarrow$ CE HN} パイプラインに対して、この \textsc{LLM Query $\rightarrow$ LLM HN} アプローチを評価した。
提案した全LLMパイプラインは,nDCG@10,Precision@10,Recall@100の計測値にまたがる計算集約CEベースラインとBM25と同じ性能を実現する。
これにより, コーパスフリーな負生成法は, 複雑なコーパス依存マイニング手法の有効性と一致し, 結果の犠牲を伴わずに, 高性能レトリバーの訓練方法として, よりシンプルで効率的な経路が提供される可能性が示唆された。
クエリと3つのメソッドのハードネガティブを含むデータセットを公開します。https://huggingface.co/collections/chungimungi/arxiv-hard- negatives-68027bbc601ff6cc8eb1f449。
関連論文リスト
- SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process Annotation [30.096211889103998]
本稿では、アノテーションのコストを大幅に削減する新しい圧縮ベースのアプローチであるSCOPE(Step Compression for Process Estimation)を紹介する。
我々は,従来の計算資源の5%しか必要とせず,196Kのサンプルを含む大規模データセットを構築した。
実験の結果、私たちのデータセットでトレーニングされたPRMは、Best-of-N戦略とProcessBenchの両方で既存の自動アノテーションアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2025-05-20T14:31:15Z) - Optimizing Retrieval Augmented Generation for Object Constraint Language [3.4777703321218225]
OCLはモデルベースシステムエンジニアリング(MBSE)に必須であるが、手動でOCLルールを記述するのは複雑で時間を要する。
OCLBERT生成に対する3つの異なる検索戦略の影響を評価する。
検索は生成精度を向上させることができるが,その有効性は検索方法と検索したチャンク数に依存する。
論文 参考訳(メタデータ) (2025-05-19T14:00:10Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Let your LLM generate a few tokens and you will reduce the need for retrieval [1.0878040851638]
大規模言語モデル(LLM)は、パラメトリックメモリに解答がすでに格納されているかどうかをトレーニングすることができる。
IK(I Know)スコアを計算するためにLLM-as-a-judgeを蒸留する。
論文 参考訳(メタデータ) (2024-12-16T08:13:14Z) - Traceable LLM-based validation of statements in knowledge graphs [0.0]
本稿では,LPMを用いたRDFトリプルの検証手法を提案する。
LLMは、ユーザプロンプトに対する応答を構築するために使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
論文 参考訳(メタデータ) (2024-09-11T12:27:41Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction [4.818309069556584]
イベント抽出は、研究者が新しい研究課題に対する任意のイベントクラスを柔軟に指定することを可能にする。
現在のゼロショットEE法は、単純な生成言語モデル(LM)の単純なゼロショットアプローチと同様に、ダイアドイベント抽出では不十分である。
我々はこれらの課題に,多段階の命令追従型LMパイプラインを新たに導入して対処する。
我々はパイプラインの国際関係解析への応用を実演する。
論文 参考訳(メタデータ) (2023-05-24T11:41:33Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。