論文の概要: Query Expansion Using Contextual Clue Sampling with Language Models
- arxiv url: http://arxiv.org/abs/2210.07093v1
- Date: Thu, 13 Oct 2022 15:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:59:59.380803
- Title: Query Expansion Using Contextual Clue Sampling with Language Models
- Title(参考訳): 言語モデルを用いた文脈手がかりサンプリングによるクエリ拡張
- Authors: Linqing Liu, Minghan Li, Jimmy Lin, Sebastian Riedel, Pontus Stenetorp
- Abstract要約: 本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
- 参考スコア(独自算出の注目度): 69.51976926838232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query expansion is an effective approach for mitigating vocabulary mismatch
between queries and documents in information retrieval. One recent line of
research uses language models to generate query-related contexts for expansion.
Along this line, we argue that expansion terms from these contexts should
balance two key aspects: diversity and relevance. The obvious way to increase
diversity is to sample multiple contexts from the language model. However, this
comes at the cost of relevance, because there is a well-known tendency of
models to hallucinate incorrect or irrelevant contexts. To balance these two
considerations, we propose a combination of an effective filtering strategy and
fusion of the retrieved documents based on the generation probability of each
context. Our lexical matching based approach achieves a similar top-5/top-20
retrieval accuracy and higher top-100 accuracy compared with the
well-established dense retrieval model DPR, while reducing the index size by
more than 96%. For end-to-end QA, the reader model also benefits from our
method and achieves the highest Exact-Match score against several competitive
baselines.
- Abstract(参考訳): クエリ拡張は、情報検索におけるクエリとドキュメント間の語彙ミスマッチを緩和するための効果的なアプローチである。
最近の研究は、言語モデルを用いて拡張のためのクエリ関連コンテキストを生成する。
この線に沿って、これらの文脈からの拡張用語は、多様性と妥当性の2つの重要な側面のバランスをとるべきであると論じる。
多様性を高める明確な方法は、言語モデルから複数のコンテキストをサンプリングすることだ。
しかしながら、これは関連性のコストが伴う。なぜなら、モデルが誤った文脈や無関係な文脈を幻覚させる傾向がよく知られているからである。
これら2つの考察のバランスをとるために,各コンテキストの生成確率に基づいて,効率的なフィルタリング戦略と検索した文書の融合を提案する。
辞書マッチングに基づくアプローチは,よく確立された検索モデルdprと同等のtop-5/top-20検索精度と高いtop-100精度を実現し,インデックスサイズを96%以上削減した。
エンドツーエンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクトマッチスコアが最も高い。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
Questはクエリ中心のデータメソッドで、セマンティックに関連があるが多様なドキュメントを集約する。
生成モデルを使用して、ドキュメント毎の潜在的なクエリを予測し、同様のクエリとキーワードでドキュメントをグループ化する。
実験では、Questの長文タスクにおける優れたパフォーマンスを示し、最大100万トークンのコンテキスト長で顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-05-30T08:50:55Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。