論文の概要: MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels
- arxiv url: http://arxiv.org/abs/2405.07526v1
- Date: Mon, 13 May 2024 07:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:30:27.273205
- Title: MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels
- Title(参考訳): MS MARCO Web Search: 数百万の本当のクリックラベルを持つ大規模情報豊富なWebデータセット
- Authors: Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang,
- Abstract要約: 我々は,MS MARCO Web Searchを紹介した。
このデータセットは現実世界のWebドキュメントとクエリ分布を模倣する。
MS MARCO Web Searchは3つのウェブ検索課題を伴う検索ベンチマークを提供する。
- 参考スコア(独自算出の注目度): 95.48844474720798
- License:
- Abstract: Recent breakthroughs in large models have highlighted the critical significance of data scale, labels and modals. In this paper, we introduce MS MARCO Web Search, the first large-scale information-rich web dataset, featuring millions of real clicked query-document labels. This dataset closely mimics real-world web document and query distribution, provides rich information for various kinds of downstream tasks and encourages research in various areas, such as generic end-to-end neural indexer models, generic embedding models, and next generation information access system with large language models. MS MARCO Web Search offers a retrieval benchmark with three web retrieval challenge tasks that demand innovations in both machine learning and information retrieval system research domains. As the first dataset that meets large, real and rich data requirements, MS MARCO Web Search paves the way for future advancements in AI and system research. MS MARCO Web Search dataset is available at: https://github.com/microsoft/MS-MARCO-Web-Search.
- Abstract(参考訳): 近年の大規模モデルにおけるブレークスルーは、データスケール、ラベル、モーダルの重要な重要性を強調している。
本稿では,MS MARCO Web Searchについて紹介する。MS MARCO Web Searchは,数百万の実クリッククエリドキュメントラベルを特徴とする,最初の大規模情報豊富なWebデータセットである。
このデータセットは、現実世界のWebドキュメントやクエリ分布を忠実に模倣し、さまざまなダウンストリームタスクに豊富な情報を提供し、汎用的なエンドツーエンドニューラルインデックスモデル、汎用埋め込みモデル、大規模言語モデルによる次世代情報アクセスシステムなど、さまざまな分野の研究を促進する。
MS MARCO Web Searchは、3つのWeb検索課題タスクを備えた検索ベンチマークを提供する。
大規模でリアルでリッチなデータ要件を満たす最初のデータセットとして、MS MARCO Web Searchは、AIとシステム研究における将来の進歩の道を開く。
MS MARCO Web Searchデータセットは、https://github.com/microsoft/MS-MARCO-Web-Searchで入手できる。
関連論文リスト
- Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。
異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文 参考訳(メタデータ) (2024-10-24T18:01:28Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - A Responsive Framework for Research Portals Data using Semantic Web
Technology [0.6798775532273751]
本研究の目的は、研究ポータルデータのセマンティックな組織化のためのフレームワークを設計することでこの問題に対処することである。
このフレームワークは、Microsoft AcademicとIEEE Xploreという2つの特定の研究ポータルから情報を抽出することに焦点を当てている。
論文 参考訳(メタデータ) (2023-06-20T16:12:33Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - SnapMode: An Intelligent and Distributed Large-Scale Fashion Image
Retrieval Platform Based On Big Data and Deep Generative Adversarial Network
Technologies [2.280980014008583]
人間がこの領域で進行中の進化と継続的に変化する内容に手動で追いつくことはほとんど不可能である。
本稿ではまず,電子商取引サイトにおけるファッションデータの抽出と処理を行う分散コンピューティングプラットフォームに基づく,スケーラブルなWebエンジンを提案する。
提案されたソリューションの現実の実装のために、Webベースのアプリケーションは、Apache Storm、Kafka、Solr、Milvusプラットフォーム上で開発され、SnapModeと呼ばれるファッション検索エンジンを作成する。
論文 参考訳(メタデータ) (2022-04-08T11:08:03Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。