論文の概要: The Surprising Effectiveness of Rankers Trained on Expanded Queries
- arxiv url: http://arxiv.org/abs/2404.02587v2
- Date: Wed, 12 Jun 2024 09:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:24:31.796742
- Title: The Surprising Effectiveness of Rankers Trained on Expanded Queries
- Title(参考訳): 拡張クエリでトレーニングしたランサーのサプライズ効果
- Authors: Abhijit Anand, Venktesh V, Vinay Setty, Avishek Anand,
- Abstract要約: 我々は,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。
我々は,クエリ毎に推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。
DL-Hardデータセットを用いた実験では,クエリ性能に基づくスコアリング手法が,パスランキングタスクにおいて最大25%の大幅な改善を実現していることがわかった。
- 参考スコア(独自算出の注目度): 4.874071145951159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An important problem in text-ranking systems is handling the hard queries that form the tail end of the query distribution. The difficulty may arise due to the presence of uncommon, underspecified, or incomplete queries. In this work, we improve the ranking performance of hard or difficult queries without compromising the performance of other queries. Firstly, we do LLM based query enrichment for training queries using relevant documents. Next, a specialized ranker is fine-tuned only on the enriched hard queries instead of the original queries. We combine the relevance scores from the specialized ranker and the base ranker, along with a query performance score estimated for each query. Our approach departs from existing methods that usually employ a single ranker for all queries, which is biased towards easy queries, which form the majority of the query distribution. In our extensive experiments on the DL-Hard dataset, we find that a principled query performance based scoring method using base and specialized ranker offers a significant improvement of up to 25% on the passage ranking task and up to 48.4% on the document ranking task when compared to the baseline performance of using original queries, even outperforming SOTA model.
- Abstract(参考訳): テキストグレードシステムにおける重要な問題は、クエリ分布のテールエンドを形成するハードクエリを扱うことである。
この困難は、一般的でない、不明確でない、あるいは不完全なクエリの存在によって生じる可能性がある。
本研究では,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。
まず、関連する文書を用いてクエリをトレーニングするためのLLMベースのクエリ強化を行う。
次に、特殊なランク付けは、元のクエリではなく、リッチなハードクエリのみに微調整される。
我々は,各クエリに対して推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。
我々のアプローチは、通常、全てのクエリに対して単一のローダを使用する既存の方法から外れており、クエリの分散の大部分を形成する、簡単なクエリに偏っている。
DL-Hardデータセットに関する広範な実験では,基本クエリを用いた照会性能に基づくスコアリング手法が,通訳ランキングタスクでは最大25%,文書ランキングタスクでは最大48.4%向上し,SOTAモデルよりも優れた照会性能が得られた。
関連論文リスト
- Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。
我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。
解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-06T12:54:27Z) - Disentangling Questions from Query Generation for Task-Adaptive Retrieval [22.86406485412172]
本研究では,BeIRベンチマークで表現された広範囲な検索意図に適応するクエリジェネレータEGGを提案する。
提案手法は,従来よりも47倍小さいクエリジェネレータを用いて,探索対象の少ない4つのタスクにおいて,ベースラインと既存モデルの性能を向上する。
論文 参考訳(メタデータ) (2024-09-25T02:53:27Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Context Aware Query Rewriting for Text Rankers using LLM [5.164642900490078]
テキストランキングタスクのクエリ書き直し改善のための大規模モデルの有用性を解析する。
私たちは、コンテキスト対応クエリ書き換え(CAR)と呼ばれる、シンプルだが驚くほど効果的なアプローチを採用しています。
書き直しクエリを使ってランク付けを行うと、パスランキングタスクでは最大33%、ドキュメントランキングタスクでは最大28%の大幅な改善が得られます。
論文 参考訳(メタデータ) (2023-08-31T14:19:50Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。