論文の概要: Promptagator: Few-shot Dense Retrieval From 8 Examples
- arxiv url: http://arxiv.org/abs/2209.11755v1
- Date: Fri, 23 Sep 2022 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:59:45.404789
- Title: Promptagator: Few-shot Dense Retrieval From 8 Examples
- Title(参考訳): プロンプタレータ:8つの例から数発のDense Retrieval
- Authors: Zhuyun Dai, Vincent Y. Zhao, Ji Ma, Yi Luan, Jianmo Ni, Jing Lu, Anton
Bakalov, Kelvin Guu, Keith B. Hall, Ming-Wei Chang
- Abstract要約: Few-shot Dense Retrievalは、各タスクが短い説明といくつかの例を持ってくる設定である。
Promptagatorは生成されたデータに基づいてタスク固有のレトリバーを生成する。
- 参考スコア(独自算出の注目度): 34.78085795791609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much recent research on information retrieval has focused on how to transfer
from one task (typically with abundant supervised data) to various other tasks
where supervision is limited, with the implicit assumption that it is possible
to generalize from one task to all the rest. However, this overlooks the fact
that there are many diverse and unique retrieval tasks, each targeting
different search intents, queries, and search domains. In this paper, we
suggest to work on Few-shot Dense Retrieval, a setting where each task comes
with a short description and a few examples. To amplify the power of a few
examples, we propose Prompt-base Query Generation for Retriever (Promptagator),
which leverages large language models (LLM) as a few-shot query generator, and
creates task-specific retrievers based on the generated data. Powered by LLM's
generalization ability, Promptagator makes it possible to create task-specific
end-to-end retrievers solely based on a few examples {without} using Natural
Questions or MS MARCO to train %question generators or dual encoders.
Surprisingly, LLM prompting with no more than 8 examples allows dual encoders
to outperform heavily engineered models trained on MS MARCO like ColBERT v2 by
more than 1.2 nDCG on average on 11 retrieval sets. Further training
standard-size re-rankers using the same generated data yields another 5.0 point
nDCG improvement. Our studies determine that query generation can be far more
effective than previously observed, especially when a small amount of
task-specific knowledge is given.
- Abstract(参考訳): 情報検索に関する最近の研究は、あるタスク(典型的には豊富な教師付きデータ)から、あるタスクから他のタスクへ一般化できるという暗黙の仮定で、監督が限られているタスクへの転送方法に焦点を当てている。
しかし、これは様々な検索意図、クエリ、検索ドメインをターゲットにした、多種多様なユニークな検索タスクが存在するという事実を見落としている。
本稿では,各タスクが短い記述といくつかの例を伴って現れるような,数ショットの密集した検索を行うように提案する。
提案するPrompt-base Query Generation for Retriever(Promptagator)は,大規模言語モデル(LLM)を数発のクエリ生成器として活用し,生成したデータに基づいてタスク固有の検索器を生成する。
llmの一般化能力によって、プロンパゲータは、タスク固有のエンドツーエンドレトリバーを、自然問題やms marcoを使って、%クエストジェネレータやデュアルエンコーダをトレーニングするいくつかの例だけに基づいて作成することができる。
驚くべきことに、LLMは8つ以上の例を伴わずに、デュアルエンコーダは、ColBERT v2のようなMS MARCOで訓練されたモデルを11の検索セットで平均1.2 nDCG以上上回ることができる。
さらに、同じデータを使った標準サイズの再ランク付けをトレーニングすることで、さらに5.0ポイントndcgが改善される。
本研究では, タスク固有の知識が少なすぎる場合において, クエリ生成が以前観測したよりもはるかに効果的であることを示す。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - An Automatic Prompt Generation System for Tabular Data Tasks [3.117741687220381]
大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。
本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。
論文 参考訳(メタデータ) (2024-05-09T08:32:55Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models [29.735976068474105]
本稿では,拡張Dense検索(DR)モデルのためのソフトプロンプトチューニングを提案する。
各タスクに対して,限られた真実データに基づいて,タスク固有のソフトプロンプトを最適化するために,ソフトプロンプトチューニングを利用する。
我々は、弱いタグ付きクエリの品質をさらに向上させるために、高品質な文書クエリペアを選択するフィルタを設計する。
論文 参考訳(メタデータ) (2023-07-17T07:55:47Z) - Improving Multitask Retrieval by Promoting Task Specialization [36.06044647938725]
タスク特化を促進することでタスク特化レトリバーより優れたマルチタスクレトリバーを訓練できることを示す。
このモデルは、素早い学習や適応学習を伴わずに、単純マルチタスクよりもタスク特化されたパラメータを実際に学習する。
論文 参考訳(メタデータ) (2023-07-01T13:45:15Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。