Fugu-MT 論文翻訳(概要): InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

論文の概要: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

arxiv url: http://arxiv.org/abs/2301.01820v1
Date: Wed, 4 Jan 2023 20:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 14:27:33.356723
Title: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
Title（参考訳）: InPars-v2:情報検索のための効率的なデータセット生成器としての大規模言語モデル
Authors: Vitor Jeronymo, Luiz Bonifacio, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Jakub Zavrel, Rodrigo Nogueira
Abstract要約: InPars-v2は、オープンソースのLLMと強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。 InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
参考スコア（独自算出の注目度）: 4.888022358881737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu
Abstract（参考訳）: InParsは近年,情報検索タスクにおいて,大規模言語モデル(LLM)を効率的に利用する手法を導入している。これらの合成クエリドキュメントペアは、レトリバーのトレーニングに使用することができる。しかし、InParsや最近では、Promptagatorは、GPT-3やFLANといったプロプライエタリなLLMを使ってそのようなデータセットを生成する。 InPars-v2は、オープンソースのLLMと既存の強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。 InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。研究者がメソッドをさらに改善できるように、コード、合成データ、微調整されたモデルをオープンソースにしています。

関連論文リスト

InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems [3.09578981466695]
この研究は、ニューラル情報検索(NIR)のための合成クエリ生成パイプラインを再考し、拡張する。まず、SciFactベンチマークで、オリジナルのInPars、InPars-V2、Promptaパイプラインのセガレータを評価する。クエリジェネレータをCPO(Contrastive Preference Optimization)経由で微調整することで、生成されたクエリの信号品質を改善するとともに、静的プロンプトテンプレートを動的にChain-of-Thought(CoT)最適化プロンプトに置き換える。
論文参考訳（メタデータ） (2025-08-19T15:23:18Z)
Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval [0.0]
効果的な高密度検索モデルの訓練は、典型的には、大きな文書コーパスから抽出した強陰性(HN)の例に依存する。本稿では,Large Language Model (LLM) を用いたエンドツーエンドパイプラインを提案する。我々のデータセットは、数学、物理学、計算機科学、および関連する分野を含む様々な領域にまたがる7,250のarXiv抽象データからなる。
論文参考訳（メタデータ） (2025-04-20T08:34:10Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。 SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文参考訳（メタデータ） (2023-11-10T00:17:10Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Generator-Retriever-Generator Approach for Open-Domain Question Answering [18.950517545413813]
文書検索手法と大規模言語モデル(LLM)を組み合わせた新しい手法を提案する。並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。 GRGは最先端のgenerator-then-readおよびrecovery-then-readパイプラインより優れている。
論文参考訳（メタデータ） (2023-07-21T00:34:38Z)
Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文参考訳（メタデータ） (2023-04-27T14:45:55Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
Evaluating the Impact of Source Code Parsers on ML4SE Models [3.699097874146491]
名前予測言語でSupernorm2SeqとTreeLSTMの2つのモデルを評価する。異なる木によって構築された木は、その構造や内容によって異なることを示す。そして、この多様性がモデルの品質にどのように影響するかを分析する。
論文参考訳（メタデータ） (2022-06-17T12:10:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。