Fugu-MT 論文翻訳(概要): Promptagator: Few-shot Dense Retrieval From 8 Examples

論文の概要: Promptagator: Few-shot Dense Retrieval From 8 Examples

arxiv url: http://arxiv.org/abs/2209.11755v1
Date: Fri, 23 Sep 2022 17:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 16:59:45.404789
Title: Promptagator: Few-shot Dense Retrieval From 8 Examples
Title（参考訳）: プロンプタレータ:8つの例から数発のDense Retrieval
Authors: Zhuyun Dai, Vincent Y. Zhao, Ji Ma, Yi Luan, Jianmo Ni, Jing Lu, Anton Bakalov, Kelvin Guu, Keith B. Hall, Ming-Wei Chang
Abstract要約: Few-shot Dense Retrievalは、各タスクが短い説明といくつかの例を持ってくる設定である。 Promptagatorは生成されたデータに基づいてタスク固有のレトリバーを生成する。
参考スコア（独自算出の注目度）: 34.78085795791609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Much recent research on information retrieval has focused on how to transfer from one task (typically with abundant supervised data) to various other tasks where supervision is limited, with the implicit assumption that it is possible to generalize from one task to all the rest. However, this overlooks the fact that there are many diverse and unique retrieval tasks, each targeting different search intents, queries, and search domains. In this paper, we suggest to work on Few-shot Dense Retrieval, a setting where each task comes with a short description and a few examples. To amplify the power of a few examples, we propose Prompt-base Query Generation for Retriever (Promptagator), which leverages large language models (LLM) as a few-shot query generator, and creates task-specific retrievers based on the generated data. Powered by LLM's generalization ability, Promptagator makes it possible to create task-specific end-to-end retrievers solely based on a few examples {without} using Natural Questions or MS MARCO to train %question generators or dual encoders. Surprisingly, LLM prompting with no more than 8 examples allows dual encoders to outperform heavily engineered models trained on MS MARCO like ColBERT v2 by more than 1.2 nDCG on average on 11 retrieval sets. Further training standard-size re-rankers using the same generated data yields another 5.0 point nDCG improvement. Our studies determine that query generation can be far more effective than previously observed, especially when a small amount of task-specific knowledge is given.
Abstract（参考訳）: 情報検索に関する最近の研究は、あるタスク(典型的には豊富な教師付きデータ)から、あるタスクから他のタスクへ一般化できるという暗黙の仮定で、監督が限られているタスクへの転送方法に焦点を当てている。しかし、これは様々な検索意図、クエリ、検索ドメインをターゲットにした、多種多様なユニークな検索タスクが存在するという事実を見落としている。本稿では,各タスクが短い記述といくつかの例を伴って現れるような,数ショットの密集した検索を行うように提案する。提案するPrompt-base Query Generation for Retriever(Promptagator)は,大規模言語モデル(LLM)を数発のクエリ生成器として活用し,生成したデータに基づいてタスク固有の検索器を生成する。 llmの一般化能力によって、プロンパゲータは、タスク固有のエンドツーエンドレトリバーを、自然問題やms marcoを使って、%クエストジェネレータやデュアルエンコーダをトレーニングするいくつかの例だけに基づいて作成することができる。驚くべきことに、LLMは8つ以上の例を伴わずに、デュアルエンコーダは、ColBERT v2のようなMS MARCOで訓練されたモデルを11の検索セットで平均1.2 nDCG以上上回ることができる。さらに、同じデータを使った標準サイズの再ランク付けをトレーニングすることで、さらに5.0ポイントndcgが改善される。本研究では, タスク固有の知識が少なすぎる場合において, クエリ生成が以前観測したよりもはるかに効果的であることを示す。

関連論文リスト

ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文参考訳（メタデータ） (2025-04-29T09:49:28Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
An Automatic Prompt Generation System for Tabular Data Tasks [3.117741687220381]
大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。
論文参考訳（メタデータ） (2024-05-09T08:32:55Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文参考訳（メタデータ） (2023-11-16T06:28:05Z)
Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models [29.735976068474105]
本稿では,拡張Dense検索(DR)モデルのためのソフトプロンプトチューニングを提案する。各タスクに対して,限られた真実データに基づいて,タスク固有のソフトプロンプトを最適化するために,ソフトプロンプトチューニングを利用する。我々は、弱いタグ付きクエリの品質をさらに向上させるために、高品質な文書クエリペアを選択するフィルタを設計する。
論文参考訳（メタデータ） (2023-07-17T07:55:47Z)
Improving Multitask Retrieval by Promoting Task Specialization [36.06044647938725]
タスク特化を促進することでタスク特化レトリバーより優れたマルチタスクレトリバーを訓練できることを示す。このモデルは、素早い学習や適応学習を伴わずに、単純マルチタスクよりもタスク特化されたパラメータを実際に学習する。
論文参考訳（メタデータ） (2023-07-01T13:45:15Z)
Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。 13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2023-05-07T16:07:11Z)
Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。 UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-03-12T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。