論文の概要: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking
- arxiv url: http://arxiv.org/abs/2405.20994v1
- Date: Fri, 31 May 2024 16:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:39:10.543831
- Title: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking
- Title(参考訳): CWRCzech: 100M Query-Document Czech Click Dataset と Web 関連ランキングへの応用
- Authors: Josef Vonášek, Milan Straka, Rostislav Krč, Lenka Lasoňová, Ekaterina Egorova, Jana Straková, Jakub Náplava,
- Abstract要約: CWRCzechは、Seznam.czの検索エンジンログから収集されたユーザ行動データと関連性ランキングのための1億のクエリドキュメントチェコのクリックデータセットである。
検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。
我々は、十分な規模で自動的に活用されるデータに基づいてトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。
- 参考スコア(独自算出の注目度): 3.1510326944737677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset for relevance ranking with user behavior data collected from search engine logs of Seznam.cz. To the best of our knowledge, CWRCzech is the largest click dataset with raw text published so far. It provides document positions in the search results as well as information about user behavior: 27.6M clicked documents and 10.8M dwell times. In addition, we also publish a manually annotated Czech test for the relevance task, containing nearly 50k query-document pairs, each annotated by at least 2 annotators. Finally, we analyze how the user behavior data improve relevance ranking and show that models trained on data automatically harnessed at sufficient scale can surpass the performance of models trained on human annotated data. CWRCzech is published under an academic non-commercial license and is available to the research community at https://github.com/seznam/CWRCzech.
- Abstract(参考訳): CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset forlevance ranking with user behavior data collected from search engine logs of Seznam.cz。
私たちの知る限りでは、CWRCzechは原文を公開している最大のクリックデータセットです。
検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。
さらに,少なくとも2つのアノテータによって注釈付けされた50万近いクエリドキュメントペアを含む,関連タスク用の手動アノテートチェコテストも公開しています。
最後に、ユーザの行動データが関連性ランキングをどのように改善するかを分析し、十分な規模で自動的にトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。
CWRCzechは学術的な非商用ライセンスの下で公開されており、https://github.com/seznam/CWRCzechで研究コミュニティに公開されている。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
brightbenchmarkは、さまざまなドメインから収集された1,398の現実世界のクエリから構築されている。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文 参考訳(メタデータ) (2022-02-25T21:30:48Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a
New Czech Dataset [0.0]
本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。
DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連するレベルを指定しています。
また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。
論文 参考訳(メタデータ) (2021-12-03T09:45:18Z) - A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and
Benchmark Datasets [5.54205518616467]
機械読み取り(Machine Reading、MRC)は、自然言語処理(NLP)の研究分野である。
MRCモデルの多くは、さまざまなベンチマークデータセットで人のパフォーマンスをすでに上回っている。
これは、既存のデータセット、評価指標、モデルを改善して、現在のMCCモデルを"リアル"な理解へと移行する必要性を示しています。
論文 参考訳(メタデータ) (2020-06-21T19:18:54Z) - ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search [31.72574180483098]
本稿では,TRECディープラーニングトラック文書コーパスに関連するクリックデータのリリースについて述べる。
集約とフィルタリングの結果、140万のTREC DL URLが1800万の接続を持ち、1000万の異なるクエリがあることがわかった。
クリックデータを用いてTREC DLトレーニングデータを拡張し、比較により28倍のクエリ、49倍のコネクション、4.4倍のURLを提供する。
論文 参考訳(メタデータ) (2020-06-09T14:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。