論文の概要: ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search
- arxiv url: http://arxiv.org/abs/2006.05324v2
- Date: Tue, 18 Aug 2020 14:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:48:27.864305
- Title: ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search
- Title(参考訳): ORCAS: 検索分析のための1800万のクリッククエリドキュメントペア
- Authors: Nick Craswell, Daniel Campos, Bhaskar Mitra, Emine Yilmaz and Bodo
Billerbeck
- Abstract要約: 本稿では,TRECディープラーニングトラック文書コーパスに関連するクリックデータのリリースについて述べる。
集約とフィルタリングの結果、140万のTREC DL URLが1800万の接続を持ち、1000万の異なるクエリがあることがわかった。
クリックデータを用いてTREC DLトレーニングデータを拡張し、比較により28倍のクエリ、49倍のコネクション、4.4倍のURLを提供する。
- 参考スコア(独自算出の注目度): 31.72574180483098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users of Web search engines reveal their information needs through queries
and clicks, making click logs a useful asset for information retrieval.
However, click logs have not been publicly released for academic use, because
they can be too revealing of personally or commercially sensitive information.
This paper describes a click data release related to the TREC Deep Learning
Track document corpus. After aggregation and filtering, including a k-anonymity
requirement, we find 1.4 million of the TREC DL URLs have 18 million
connections to 10 million distinct queries. Our dataset of these queries and
connections to TREC documents is of similar size to proprietary datasets used
in previous papers on query mining and ranking. We perform some preliminary
experiments using the click data to augment the TREC DL training data, offering
by comparison: 28x more queries, with 49x more connections to 4.4x more URLs in
the corpus. We present a description of the dataset's generation process,
characteristics, use in ranking and suggest other potential uses.
- Abstract(参考訳): Web検索エンジンのユーザは、クェリやクリックを通じて情報ニーズを明らかにし、クリックログを情報検索に有用な資産にする。
しかし、クリックログは、個人的または商業的に機密性の高い情報の開示が多すぎるため、学術利用のために公開されていない。
本稿では,tracディープラーニングトラック文書コーパスに関連するクリックデータリリースについて述べる。
k匿名性要件を含む集約とフィルタリングの結果、TREC DL URLの140万が、1800万の接続と1000万の異なるクエリを持つことがわかった。
これらのクエリとtrecドキュメントへの接続のデータセットは、クエリマイニングとランキングに関する以前の論文で使用されているプロプライエタリなデータセットと同じ大きさです。
クリックデータを使用してtrec dlトレーニングデータを強化する予備実験を行い、比較によって28倍のクエリ、49倍の接続と4.4倍のurlを提供する。
本稿では,データセットの生成過程,特徴,ランキングにおける使用について記述し,他の潜在的な用途を提案する。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking [3.1510326944737677]
CWRCzechは、Seznam$.$czの検索エンジンログから収集されたユーザ行動データと関連性ランキングのための1億のクエリドキュメントチェコのクリックデータセットである。
検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。
我々は、十分な規模で自動的に活用されるデータに基づいてトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:38:54Z) - LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search [10.200377742590089]
Log-Augmented Dense Retrieval (LADER)は、類似のトレーニングクエリから取得したクリックログで、密集したレトリバーを拡張するシンプルなプラグインモジュールである。
LADERは、与えられたクエリに類似したドキュメントとクエリの両方を、密集した検索者によって見つける。
LADERは、最近リリースされたバイオメディカル文献検索のベンチマークであるTripClick上で、新しい最先端(SOTA)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-10T13:51:44Z) - Improving Content Retrievability in Search with Controllable Query
Generation [5.450798147045502]
マシンが学習した検索エンジンは高い検索可能性バイアスを持ち、クエリの大部分が同じエンティティを返す。
そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。
音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,高密度検索モデルの検索可能性バイアスを著しく低減できることがわかった。
論文 参考訳(メタデータ) (2023-03-21T07:46:57Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。