論文の概要: ClueWeb22: 10 Billion Web Documents with Rich Information
- arxiv url: http://arxiv.org/abs/2211.15848v1
- Date: Tue, 29 Nov 2022 00:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:01:45.376495
- Title: ClueWeb22: 10 Billion Web Documents with Rich Information
- Title(参考訳): ClueWeb22:豊富な情報を持つ100億のWebドキュメント
- Authors: Arnold Overwijk, Chenyan Xiong, Xiao Liu, Cameron VandenBerg, Jamie
Callan
- Abstract要約: ClueWeb22は、豊富な情報を扱う100億のWebページを提供する。
その設計は、学術・産業研究を支援するための高品質で大規模なウェブコーパスの必要性に影響された。
- 参考スコア(独自算出の注目度): 28.68403988636645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ClueWeb22, the newest iteration of the ClueWeb line of datasets, provides 10
billion web pages affiliated with rich information. Its design was influenced
by the need for a high quality, large scale web corpus to support a range of
academic and industry research, for example, in information systems,
retrieval-augmented AI systems, and model pretraining. Compared with earlier
ClueWeb corpora, the ClueWeb22 corpus is larger, more varied, of
higher-quality, and aligned with the document distributions in commercial web
search. Besides raw HTML, ClueWeb22 includes rich information about the web
pages provided by industry-standard document understanding systems, including
the visual representation of pages rendered by a web browser, parsed HTML
structure information from a neural network parser, and pre-processed cleaned
document text to lower the barrier to entry. Many of these signals have been
widely used in industry but are available to the research community for the
first time at this scale.
- Abstract(参考訳): ClueWeb22は、ClueWebデータセットの最新バージョンで、豊富な情報を扱う100億のWebページを提供する。
その設計は、情報システム、検索型aiシステム、モデルの事前学習など、様々な学術的および産業的な研究をサポートするために、高品質で大規模なウェブコーパスの必要性に影響された。
以前の ClueWeb コーパスと比較すると、ClueWeb22 コーパスはより大きく、より多様性があり、高品質であり、商用ウェブ検索におけるドキュメントの配布と一致している。
clueweb22は生のhtmlに加えて、webブラウザでレンダリングされたページを視覚的に表現したり、ニューラルネットワークパーサからhtml構造情報を解析したりするなど、業界標準のドキュメント理解システムによって提供されるwebページに関する豊富な情報を含んでいる。
これらの信号の多くは業界で広く使われているが、この規模で初めて研究コミュニティで利用可能である。
関連論文リスト
- HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.36019283532854]
Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。
RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。
我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:58:36Z) - Health Misinformation Detection in Web Content via Web2Vec: A Structural-, Content-based, and Context-aware Approach based on Web2Vec [3.299010876315217]
我々は、Webページの信頼性を評価するために、構造、コンテンツ、コンテキストベースの機能を研究するための研究の余地がまだあるWebページコンテンツに焦点を当てている。
本研究の目的は, フィッシングWebページ検出(Web2Vec)の文脈で最近提案されたWebページの埋め込み表現から始まる, 深層学習モデルに関連する機能の有効性を検討することである。
論文 参考訳(メタデータ) (2024-07-05T10:33:15Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels [95.48844474720798]
我々は,MS MARCO Web Searchを紹介した。
このデータセットは現実世界のWebドキュメントとクエリ分布を模倣する。
MS MARCO Web Searchは3つのウェブ検索課題を伴う検索ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-05-13T07:46:44Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。
実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-22T16:04:03Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - A Large Visual, Qualitative and Quantitative Dataset of Web Pages [4.5002924206836]
49,438ページの大規模なデータセットを作成しました。
視覚、テキスト、数値のデータタイプで構成され、世界中のすべての国を含み、幅広いトピックを検討しています。
論文 参考訳(メタデータ) (2021-05-15T01:31:25Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。