論文の概要: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- arxiv url: http://arxiv.org/abs/2101.09465v1
- Date: Sat, 23 Jan 2021 09:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:48:07.178842
- Title: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- Title(参考訳): websrc: webベースの構造理解のためのデータセット
- Authors: Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo,
Yuxuan Xiong, Kai Yu
- Abstract要約: Webベースの構造読解のタスクを紹介します。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
Webベースの構造読み取りデータセットであるWebSRCを提案する。
- 参考スコア(独自算出の注目度): 24.285934026113473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web search is an essential way for human to obtain information, but it's
still a great challenge for machines to understand the contents of web pages.
In this paper, we introduce the task of web-based structural reading
comprehension. Given a web page and a question about it, the task is to find an
answer from the web page. This task requires a system not only to understand
the semantics of texts but also the structure of the web page. Moreover, we
proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset.
WebSRC consists of 0.44M question-answer pairs, which are collected from 6.5K
web pages with corresponding HTML source code, screenshots, and metadata. Each
question in WebSRC requires a certain structural understanding of a web page to
answer, and the answer is either a text span on the web page or yes/no. We
evaluate various strong baselines on our dataset to show the difficulty of our
task. We also investigate the usefulness of structural information and visual
features. Our dataset and task are publicly available at
https://speechlab-sjtu.github.io/WebSRC/.
- Abstract(参考訳): ウェブ検索は人間が情報を得るための必須の方法ですが、マシンがWebページの内容を理解することは依然として大きな課題です。
本稿では,Web上の構造的読解の課題を紹介する。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
このタスクは、テキストの意味だけでなく、Webページの構造を理解するためにもシステムを必要とする。
さらに,新しいWebベース構造読解データセットであるWebSRCを提案する。
WebSRCは0.44万の質問応答対で構成され、HTMLソースコード、スクリーンショット、メタデータを含む6.5KのWebページから収集される。
websrcの各質問には、答えるためにwebページの構造的な理解が必要であり、答えはwebページのテキストスパンかyes/noである。
我々は,タスクの難易度を示すために,データセット上で様々な強いベースラインを評価する。
また,構造情報と視覚特性の有用性についても検討した。
私たちのデータセットとタスクはhttps://speechlab-sjtu.github.io/websrc/で公開されている。
関連論文リスト
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - ClueWeb22: 10 Billion Web Documents with Rich Information [28.68403988636645]
ClueWeb22は、豊富な情報を扱う100億のWebページを提供する。
その設計は、学術・産業研究を支援するための高品質で大規模なウェブコーパスの必要性に影響された。
論文 参考訳(メタデータ) (2022-11-29T00:49:40Z) - TIE: Topological Information Enhanced Structural Reading Comprehension
on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。
TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。
実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文 参考訳(メタデータ) (2022-05-13T03:21:09Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。