論文の概要: The Surprising Effectiveness of Rankers Trained on Expanded Queries
- arxiv url: http://arxiv.org/abs/2404.02587v1
- Date: Wed, 3 Apr 2024 09:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:00:28.399250
- Title: The Surprising Effectiveness of Rankers Trained on Expanded Queries
- Title(参考訳): 拡張クエリでトレーニングしたランサーのサプライズ効果
- Authors: Abhijit Anand, Venktesh V, Vinay Setty, Avishek Anand,
- Abstract要約: 我々は,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。
我々は,クエリ毎に推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。
DL-Hardデータセットを用いた実験では,クエリ性能に基づくスコアリング手法が,パスランキングタスクにおいて最大25%の大幅な改善を実現していることがわかった。
- 参考スコア(独自算出の注目度): 4.874071145951159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An important problem in text-ranking systems is handling the hard queries that form the tail end of the query distribution. The difficulty may arise due to the presence of uncommon, underspecified, or incomplete queries. In this work, we improve the ranking performance of hard or difficult queries without compromising the performance of other queries. Firstly, we do LLM based query enrichment for training queries using relevant documents. Next, a specialized ranker is fine-tuned only on the enriched hard queries instead of the original queries. We combine the relevance scores from the specialized ranker and the base ranker, along with a query performance score estimated for each query. Our approach departs from existing methods that usually employ a single ranker for all queries, which is biased towards easy queries, which form the majority of the query distribution. In our extensive experiments on the DL-Hard dataset, we find that a principled query performance based scoring method using base and specialized ranker offers a significant improvement of up to 25% on the passage ranking task and up to 48.4% on the document ranking task when compared to the baseline performance of using original queries, even outperforming SOTA model.
- Abstract(参考訳): テキストグレードシステムにおける重要な問題は、クエリ分布のテールエンドを形成するハードクエリを扱うことである。
この困難は、一般的でない、不明確でない、あるいは不完全なクエリの存在によって生じる可能性がある。
本研究では,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。
まず、関連する文書を用いてクエリをトレーニングするためのLLMベースのクエリ強化を行う。
次に、特殊なランク付けは、元のクエリではなく、リッチなハードクエリのみに微調整される。
我々は,各クエリに対して推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。
我々のアプローチは、通常、全てのクエリに対して単一のローダを使用する既存の方法から外れており、クエリの分散の大部分を形成する、簡単なクエリに偏っている。
DL-Hardデータセットに関する広範な実験では,基本クエリを用いた照会性能に基づくスコアリング手法が,通訳ランキングタスクでは最大25%,文書ランキングタスクでは最大48.4%向上し,SOTAモデルよりも優れた照会性能が得られた。
関連論文リスト
- Context Aware Query Rewriting for Text Rankers using LLM [5.164642900490078]
テキストランキングタスクのクエリ書き直し改善のための大規模モデルの有用性を解析する。
私たちは、コンテキスト対応クエリ書き換え(CAR)と呼ばれる、シンプルだが驚くほど効果的なアプローチを採用しています。
書き直しクエリを使ってランク付けを行うと、パスランキングタスクでは最大33%、ドキュメントランキングタスクでは最大28%の大幅な改善が得られます。
論文 参考訳(メタデータ) (2023-08-31T14:19:50Z) - BitE : Accelerating Learned Query Optimization in a Mixed-Workload
Environment [0.36700088931938835]
BitEは、データベース統計とメタデータを使用して、学習したクエリをチューニングしてパフォーマンスを向上させる、新しいアンサンブル学習モデルである。
我々のモデルは従来の手法に比べて19.6%改善されたクエリと15.8%改善されたクエリを実現している。
論文 参考訳(メタデータ) (2023-06-01T16:05:33Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Counterfactual Learning To Rank for Utility-Maximizing Query
Autocompletion [40.31426350180036]
本稿では,ダウンストリーム検索性能に対するクエリ提案を明示的に最適化する手法を提案する。
ここでは、各クエリ提案が生成するダウンストリームアイテムランキングによって表現されるランキングの集合をランク付けする問題として、これを定式化する。
次に,項目ランクの質によってクエリ提案をランク付けする学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-22T21:40:51Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。
我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文 参考訳(メタデータ) (2021-09-13T12:13:20Z) - Leveraging semantically similar queries for ranking via combining
representations [20.79800117378761]
データスカース設定では、特定のクエリで利用可能なラベル付きデータの量は、高度に可変で効率の悪いランキング関数につながる可能性がある。
少量のデータの影響を軽減する一つの方法は、セマンティックに類似したクエリからの情報を活用することである。
我々は,この現象をバイアス分散トレードオフの文脈で記述し,Bingナビゲーショングラフとショウジョウバエ幼虫コネクトームのデータスカース設定に適用する。
論文 参考訳(メタデータ) (2021-06-23T18:36:20Z) - Surprise: Result List Truncation via Extreme Value Theory [92.5817701697342]
そこで本研究では,問合せ時における可逆的・校正的関連度スコアを,ランク付けされたスコアに留まらず,統計的に生成する手法を提案する。
本稿では、画像、テキスト、IRデータセット間での結果リストのトランケーションタスクにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2020-10-19T19:15:50Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。