論文の概要: A Large Visual, Qualitative and Quantitative Dataset of Web Pages
- arxiv url: http://arxiv.org/abs/2105.07113v1
- Date: Sat, 15 May 2021 01:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 04:39:22.272867
- Title: A Large Visual, Qualitative and Quantitative Dataset of Web Pages
- Title(参考訳): Webページの大規模視覚的,質的,定量的データセット
- Authors: Christian Mejia-Escobar, Miguel Cazorla, Ester Martinez-Martin
- Abstract要約: 49,438ページの大規模なデータセットを作成しました。
視覚、テキスト、数値のデータタイプで構成され、世界中のすべての国を含み、幅広いトピックを検討しています。
- 参考スコア(独自算出の注目度): 4.5002924206836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The World Wide Web is not only one of the most important platforms of
communication and information at present, but also an area of growing interest
for scientific research. This motivates a lot of work and projects that require
large amounts of data. However, there is no dataset that integrates the
parameters and visual appearance of Web pages, because its collection is a
costly task in terms of time and effort. With the support of various computer
tools and programming scripts, we have created a large dataset of 49,438 Web
pages. It consists of visual, textual and numerical data types, includes all
countries worldwide, and considers a broad range of topics such as art,
entertainment, economy, business, education, government, news, media, science,
and environment, covering different cultural characteristics and varied design
preferences. In this paper, we describe the process of collecting, debugging
and publishing the final product, which is freely available. To demonstrate the
usefulness of our dataset, we expose a binary classification model for
detecting error Web pages, and a multi-class Web subject-based categorization,
both problems using convolutional neural networks.
- Abstract(参考訳): world wide webは、現在最も重要なコミュニケーションと情報プラットフォームであるだけでなく、科学研究への関心が高まっている分野でもある。
これは大量のデータを必要とする多くの作業やプロジェクトを動機付けます。
しかし,Webページのパラメータと視覚的外観を統合するデータセットは存在しない。
様々なコンピュータツールやプログラミングスクリプトをサポートし、49,438ページの大規模なデータセットを作成しました。
視覚的、テキスト的、数値的なデータ型で構成され、世界中のすべての国を含み、芸術、娯楽、経済、ビジネス、教育、政府、ニュース、メディア、科学、環境など幅広いトピックを検討し、異なる文化的特徴と様々なデザインの好みをカバーしている。
本稿では,最終製品を収集し,デバッグし,公開するプロセスについて述べる。
このデータセットの有用性を示すために,畳み込みニューラルネットワークを用いて,誤りwebページ検出のためのバイナリ分類モデルと,マルチクラスwebサブジェクトに基づく分類を明らかにした。
関連論文リスト
- Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Creating Knowledge Graphs for Geographic Data on the Web [6.654753562389985]
地理データは、さまざまなWeb、セマンティックWeb、機械学習アプリケーションにおいて重要な役割を果たす。
この記事では、これらの課題に取り組むために開発された最近のアプローチについて説明する。
論文 参考訳(メタデータ) (2023-02-17T11:44:49Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - A Web Scale Entity Extraction System [9.300916856534007]
我々は,複数種類の文書を大規模に抽出するエンティティ抽出システムを構築する上で,我々の取り組みから学んだことを提示する。
我々は,多言語,マルチタスク,クロスドキュメント型学習の有効性を実証的に実証した。
また,収集したデータのノイズ量を最小限に抑えるためのラベル収集手法についても論じる。
論文 参考訳(メタデータ) (2021-08-27T16:37:37Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。