論文の概要: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- arxiv url: http://arxiv.org/abs/2101.09465v1
- Date: Sat, 23 Jan 2021 09:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:48:07.178842
- Title: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- Title(参考訳): websrc: webベースの構造理解のためのデータセット
- Authors: Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo,
Yuxuan Xiong, Kai Yu
- Abstract要約: Webベースの構造読解のタスクを紹介します。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
Webベースの構造読み取りデータセットであるWebSRCを提案する。
- 参考スコア(独自算出の注目度): 24.285934026113473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web search is an essential way for human to obtain information, but it's
still a great challenge for machines to understand the contents of web pages.
In this paper, we introduce the task of web-based structural reading
comprehension. Given a web page and a question about it, the task is to find an
answer from the web page. This task requires a system not only to understand
the semantics of texts but also the structure of the web page. Moreover, we
proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset.
WebSRC consists of 0.44M question-answer pairs, which are collected from 6.5K
web pages with corresponding HTML source code, screenshots, and metadata. Each
question in WebSRC requires a certain structural understanding of a web page to
answer, and the answer is either a text span on the web page or yes/no. We
evaluate various strong baselines on our dataset to show the difficulty of our
task. We also investigate the usefulness of structural information and visual
features. Our dataset and task are publicly available at
https://speechlab-sjtu.github.io/WebSRC/.
- Abstract(参考訳): ウェブ検索は人間が情報を得るための必須の方法ですが、マシンがWebページの内容を理解することは依然として大きな課題です。
本稿では,Web上の構造的読解の課題を紹介する。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
このタスクは、テキストの意味だけでなく、Webページの構造を理解するためにもシステムを必要とする。
さらに,新しいWebベース構造読解データセットであるWebSRCを提案する。
WebSRCは0.44万の質問応答対で構成され、HTMLソースコード、スクリーンショット、メタデータを含む6.5KのWebページから収集される。
websrcの各質問には、答えるためにwebページの構造的な理解が必要であり、答えはwebページのテキストスパンかyes/noである。
我々は,タスクの難易度を示すために,データセット上で様々な強いベースラインを評価する。
また,構造情報と視覚特性の有用性についても検討した。
私たちのデータセットとタスクはhttps://speechlab-sjtu.github.io/websrc/で公開されている。
関連論文リスト
- WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - ClueWeb22: 10 Billion Web Documents with Rich Information [28.68403988636645]
ClueWeb22は、豊富な情報を扱う100億のWebページを提供する。
その設計は、学術・産業研究を支援するための高品質で大規模なウェブコーパスの必要性に影響された。
論文 参考訳(メタデータ) (2022-11-29T00:49:40Z) - TIE: Topological Information Enhanced Structural Reading Comprehension
on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。
TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。
実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文 参考訳(メタデータ) (2022-05-13T03:21:09Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。