論文の概要: ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search
- arxiv url: http://arxiv.org/abs/2006.05324v2
- Date: Tue, 18 Aug 2020 14:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:48:27.864305
- Title: ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search
- Title(参考訳): ORCAS: 検索分析のための1800万のクリッククエリドキュメントペア
- Authors: Nick Craswell, Daniel Campos, Bhaskar Mitra, Emine Yilmaz and Bodo
Billerbeck
- Abstract要約: 本稿では,TRECディープラーニングトラック文書コーパスに関連するクリックデータのリリースについて述べる。
集約とフィルタリングの結果、140万のTREC DL URLが1800万の接続を持ち、1000万の異なるクエリがあることがわかった。
クリックデータを用いてTREC DLトレーニングデータを拡張し、比較により28倍のクエリ、49倍のコネクション、4.4倍のURLを提供する。
- 参考スコア(独自算出の注目度): 31.72574180483098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users of Web search engines reveal their information needs through queries
and clicks, making click logs a useful asset for information retrieval.
However, click logs have not been publicly released for academic use, because
they can be too revealing of personally or commercially sensitive information.
This paper describes a click data release related to the TREC Deep Learning
Track document corpus. After aggregation and filtering, including a k-anonymity
requirement, we find 1.4 million of the TREC DL URLs have 18 million
connections to 10 million distinct queries. Our dataset of these queries and
connections to TREC documents is of similar size to proprietary datasets used
in previous papers on query mining and ranking. We perform some preliminary
experiments using the click data to augment the TREC DL training data, offering
by comparison: 28x more queries, with 49x more connections to 4.4x more URLs in
the corpus. We present a description of the dataset's generation process,
characteristics, use in ranking and suggest other potential uses.
- Abstract(参考訳): Web検索エンジンのユーザは、クェリやクリックを通じて情報ニーズを明らかにし、クリックログを情報検索に有用な資産にする。
しかし、クリックログは、個人的または商業的に機密性の高い情報の開示が多すぎるため、学術利用のために公開されていない。
本稿では,tracディープラーニングトラック文書コーパスに関連するクリックデータリリースについて述べる。
k匿名性要件を含む集約とフィルタリングの結果、TREC DL URLの140万が、1800万の接続と1000万の異なるクエリを持つことがわかった。
これらのクエリとtrecドキュメントへの接続のデータセットは、クエリマイニングとランキングに関する以前の論文で使用されているプロプライエタリなデータセットと同じ大きさです。
クリックデータを使用してtrec dlトレーニングデータを強化する予備実験を行い、比較によって28倍のクエリ、49倍の接続と4.4倍のurlを提供する。
本稿では,データセットの生成過程,特徴,ランキングにおける使用について記述し,他の潜在的な用途を提案する。
関連論文リスト
- MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion [41.21789597997263]
本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search [10.200377742590089]
Log-Augmented Dense Retrieval (LADER)は、類似のトレーニングクエリから取得したクリックログで、密集したレトリバーを拡張するシンプルなプラグインモジュールである。
LADERは、与えられたクエリに類似したドキュメントとクエリの両方を、密集した検索者によって見つける。
LADERは、最近リリースされたバイオメディカル文献検索のベンチマークであるTripClick上で、新しい最先端(SOTA)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-10T13:51:44Z) - Improving Content Retrievability in Search with Controllable Query
Generation [5.450798147045502]
マシンが学習した検索エンジンは高い検索可能性バイアスを持ち、クエリの大部分が同じエンティティを返す。
そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。
音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,高密度検索モデルの検索可能性バイアスを著しく低減できることがわかった。
論文 参考訳(メタデータ) (2023-03-21T07:46:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。