Fugu-MT 論文翻訳(概要): CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking

論文の概要: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking

arxiv url: http://arxiv.org/abs/2405.20994v2
Date: Mon, 15 Jul 2024 08:50:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 00:26:24.979650
Title: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking
Title（参考訳）: CWRCzech: 100M Query-Document Czech Click Dataset と Web 関連ランキングへの応用
Authors: Josef Vonášek, Milan Straka, Rostislav Krč, Lenka Lasoňová, Ekaterina Egorova, Jana Straková, Jakub Náplava,
Abstract要約: CWRCzechは、Seznam$.$czの検索エンジンログから収集されたユーザ行動データと関連性ランキングのための1億のクエリドキュメントチェコのクリックデータセットである。検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。我々は、十分な規模で自動的に活用されるデータに基づいてトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。
参考スコア（独自算出の注目度）: 3.1510326944737677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset for relevance ranking with user behavior data collected from search engine logs of Seznam$.$cz. To the best of our knowledge, CWRCzech is the largest click dataset with raw text published so far. It provides document positions in the search results as well as information about user behavior: 27.6M clicked documents and 10.8M dwell times. In addition, we also publish a manually annotated Czech test for the relevance task, containing nearly 50k query-document pairs, each annotated by at least 2 annotators. Finally, we analyze how the user behavior data improve relevance ranking and show that models trained on data automatically harnessed at sufficient scale can surpass the performance of models trained on human annotated data. CWRCzech is published under an academic non-commercial license and is available to the research community at https://github.com/seznam/CWRCzech.
Abstract（参考訳）: CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset forlevance ranking with user behavior data collected from search engine logs of Seznam$。 CZだ私たちの知る限りでは、CWRCzechは原文を公開している最大のクリックデータセットです。検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。さらに,少なくとも2つのアノテータによって注釈付けされた50万近いクエリドキュメントペアを含む,関連タスク用の手動アノテートチェコテストも公開しています。最後に、ユーザの行動データが関連性ランキングをどのように改善するかを分析し、十分な規模で自動的にトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。 CWRCzechは学術的な非商用ライセンスの下で公開されており、https://github.com/seznam/CWRCzechで研究コミュニティに公開されている。

関連論文リスト

Synthetic Document Question Answering in Hungarian [7.072348950572827]
本稿では,HuDocVQAとHuDocVQAを用いた文書VQAデータセットを提案する。データセットの品質を検証するために、これらのデータセットの混合による微調整が、Llama 3.2 11BのHuDocVQAの精度を+7.2%向上することを示す。
論文参考訳（メタデータ） (2025-05-29T02:34:36Z)
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction [0.0]
BiblioPageは、構造化メタデータを付加したスキャン済みのタイトルページのデータセットである。このデータセットは、チェコの14の図書館から集められた約2,000のタイトルページで構成されている。 YOLO や DETR などの物体検出モデルと変換器を用いた OCR を併用し,最大 mAP 52 と F1 59。
論文参考訳（メタデータ） (2025-03-25T13:46:55Z)
Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文参考訳（メタデータ） (2024-10-09T06:26:39Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
KGxBoard: Explainable and Interactive Leaderboard for Evaluation of Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文参考訳（メタデータ） (2022-08-23T15:11:45Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文参考訳（メタデータ） (2022-02-25T21:30:48Z)
CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。 3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文参考訳（メタデータ） (2022-01-26T18:48:42Z)
Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a New Czech Dataset [0.0]
本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。 DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連するレベルを指定しています。また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。
論文参考訳（メタデータ） (2021-12-03T09:45:18Z)
A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets [5.54205518616467]
機械読み取り(Machine Reading、MRC)は、自然言語処理(NLP)の研究分野である。 MRCモデルの多くは、さまざまなベンチマークデータセットで人のパフォーマンスをすでに上回っている。これは、既存のデータセット、評価指標、モデルを改善して、現在のMCCモデルを"リアル"な理解へと移行する必要性を示しています。
論文参考訳（メタデータ） (2020-06-21T19:18:54Z)
ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search [31.72574180483098]
本稿では,TRECディープラーニングトラック文書コーパスに関連するクリックデータのリリースについて述べる。集約とフィルタリングの結果、140万のTREC DL URLが1800万の接続を持ち、1000万の異なるクエリがあることがわかった。クリックデータを用いてTREC DLトレーニングデータを拡張し、比較により28倍のクエリ、49倍のコネクション、4.4倍のURLを提供する。
論文参考訳（メタデータ） (2020-06-09T14:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。