論文の概要: InPars-v2: Large Language Models as Efficient Dataset Generators for
Information Retrieval
- arxiv url: http://arxiv.org/abs/2301.01820v1
- Date: Wed, 4 Jan 2023 20:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:27:33.356723
- Title: InPars-v2: Large Language Models as Efficient Dataset Generators for
Information Retrieval
- Title(参考訳): InPars-v2:情報検索のための効率的なデータセット生成器としての大規模言語モデル
- Authors: Vitor Jeronymo, Luiz Bonifacio, Hugo Abonizio, Marzieh Fadaee, Roberto
Lotufo, Jakub Zavrel, Rodrigo Nogueira
- Abstract要約: InPars-v2は、オープンソースのLLMと強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。
InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
- 参考スコア(独自算出の注目度): 4.888022358881737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, InPars introduced a method to efficiently use large language models
(LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced
to generate relevant queries for documents. These synthetic query-document
pairs can then be used to train a retriever. However, InPars and, more
recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to
generate such datasets. In this work we introduce InPars-v2, a dataset
generator that uses open-source LLMs and existing powerful rerankers to select
synthetic query-document pairs for training. A simple BM25 retrieval pipeline
followed by a monoT5 reranker finetuned on InPars-v2 data achieves new
state-of-the-art results on the BEIR benchmark. To allow researchers to further
improve our method, we open source the code, synthetic data, and finetuned
models: https://github.com/zetaalphavector/inPars/tree/master/tpu
- Abstract(参考訳): InParsは近年,情報検索タスクにおいて,大規模言語モデル(LLM)を効率的に利用する手法を導入している。
これらの合成クエリドキュメントペアは、レトリバーのトレーニングに使用することができる。
しかし、InParsや最近では、Promptagatorは、GPT-3やFLANといったプロプライエタリなLLMを使ってそのようなデータセットを生成する。
InPars-v2は、オープンソースのLLMと既存の強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。
InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
研究者がメソッドをさらに改善できるように、コード、合成データ、微調整されたモデルをオープンソースにしています。
関連論文リスト
- LLatrieval: LLM-Verified Retrieval for Verifiable Generation [71.98112450207368]
検証可能な生成は、大きな言語モデル(LLM)が対応する文書でテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval) を提案する。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs [3.0215424372240265]
本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
論文 参考訳(メタデータ) (2023-08-19T03:19:01Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Evaluating the Impact of Source Code Parsers on ML4SE Models [3.699097874146491]
名前予測言語でSupernorm2SeqとTreeLSTMの2つのモデルを評価する。
異なる木によって構築された木は、その構造や内容によって異なることを示す。
そして、この多様性がモデルの品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-06-17T12:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。