論文の概要: It's All Relative! -- A Synthetic Query Generation Approach for
Improving Zero-Shot Relevance Prediction
- arxiv url: http://arxiv.org/abs/2311.07930v1
- Date: Tue, 14 Nov 2023 06:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:15:47.231040
- Title: It's All Relative! -- A Synthetic Query Generation Approach for
Improving Zero-Shot Relevance Prediction
- Title(参考訳): 全て相対的だ!
--ゼロショット適合度予測を改善する合成クエリ生成手法
- Authors: Aditi Chaudhary, Karthik Raman, Michael Bendersky
- Abstract要約: 大規模言語モデル(LLM)は、最大8つのデモをプロンプトすることで、合成クエリ-ドキュメントペアを生成する能力を示す。
異なるラベルに対するクエリを同時に生成することで,この負担を軽減することを提案する。
- 参考スコア(独自算出の注目度): 19.881193965130173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in large language models (LLMs) have shown promise in
their ability to generate synthetic query-document pairs by prompting with as
few as 8 demonstrations. This has enabled building better IR models, especially
for tasks with no training data readily available. Typically, such synthetic
query generation (QGen) approaches condition on an input context (e.g. a text
document) and generate a query relevant to that context, or condition the QGen
model additionally on the relevance label (e.g. relevant vs irrelevant) to
generate queries across relevance buckets. However, we find that such QGen
approaches are sub-optimal as they require the model to reason about the
desired label and the input from a handful of examples. In this work, we
propose to reduce this burden of LLMs by generating queries simultaneously for
different labels. We hypothesize that instead of asking the model to generate,
say, an irrelevant query given an input context, asking the model to generate
an irrelevant query relative to a relevant query is a much simpler task setup
for the model to reason about. Extensive experimentation across seven IR
datasets shows that synthetic queries generated in such a fashion translates to
a better downstream performance, suggesting that the generated queries are
indeed of higher quality.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、最大8つのデモで、合成クエリ-ドキュメントペアを生成する能力を約束している。
これにより、特にトレーニングデータのないタスクに対して、より優れたIRモデルの構築が可能になる。
典型的には、このような合成クエリ生成(qgen)は、入力コンテキスト(例えば、テキスト文書)の条件にアプローチし、そのコンテキストに関連するクエリを生成するか、あるいはqgenモデルを関連ラベル(例えば、関連するか無関係か)に条件付けして、関連バケット間でクエリを生成する。
しかし、そのようなQGenアプローチは、所望のラベルと少数の例からの入力を推論するためにモデルを必要とするため、準最適であることがわかった。
本研究では,ラベルの異なるクエリを同時に生成することで,LLMの負担を軽減することを提案する。
我々は、入力コンテキストが与えられた無関係なクエリを生成するようモデルに要求する代わりに、関連するクエリに対して無関係なクエリを生成するようモデルに求めることは、モデルにとってより単純なタスク設定である、と仮定する。
7つのirデータセットにわたる広範囲な実験は、このような方法で生成された合成クエリが下流のパフォーマンス向上につながり、生成されたクエリは確かに高品質であることを示している。
関連論文リスト
- Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - Is Complex Query Answering Really Complex? [28.8459899849641]
CQAの現在のベンチマークはそれほど複雑ではなく、それらの構築方法がこの分野の進歩に対する認識を歪めていることを示している。
我々は、複数のホップを推論し、現実世界のKGの構築をより良く反映するモデルを必要とするクエリで構成された、より困難なベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:19:03Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Exploring the Viability of Synthetic Query Generation for Relevance
Prediction [18.77909480819682]
本研究は,QGen のアプローチを不確実性予測に活用する方法について検討する。
既存のQGenアプローチの新たな欠点 - 関連性の異なるグレードを区別できないことなど - を特定します。
異なる関連性に関する知識を取り入れたラベル粒度のQGenモデルを提案する。
論文 参考訳(メタデータ) (2023-05-19T18:03:36Z) - A Lightweight Constrained Generation Alternative for Query-focused
Summarization [8.264410236351111]
クエリ中心の要約(QFS)は、あるクエリの必要な情報を満たすドキュメントの要約を提供することを目的としている。
我々は,最近開発された制約付き世代モデルニューロロジカルデコーディング(NLD)を,現在のQFS方式の代替として活用することを提案する。
本稿では,2つの公開QFSコレクションに対するこのアプローチの有効性を,複雑性を著しく低減した最先端モデルとほぼ同等に示す。
論文 参考訳(メタデータ) (2023-04-23T18:43:48Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Query Embedding on Hyper-relational Knowledge Graphs [0.4779196219827507]
マルチホップ論理推論は知識グラフ上の表現学習の分野で確立された問題である。
我々はマルチホップ推論問題をハイパーリレーショナルなKGに拡張し、この新しいタイプの複雑なクエリに対処する。
論文 参考訳(メタデータ) (2021-06-15T14:08:50Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Leveraging Passage Retrieval with Generative Models for Open Domain
Question Answering [61.394478670089065]
オープンドメインの質問に答えるための生成モデルは、外部の知識に頼らずに競争力があることが証明されている。
我々は、これらのモデルがテキストの文節を検索することでどれだけの恩恵を受けられるかを調査し、潜在的に証拠を含む可能性がある。
検索したパス数を増やすと,本手法の性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-02T17:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。