論文の概要: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- arxiv url: http://arxiv.org/abs/2101.09465v1
- Date: Sat, 23 Jan 2021 09:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:48:07.178842
- Title: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
- Title(参考訳): websrc: webベースの構造理解のためのデータセット
- Authors: Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo,
Yuxuan Xiong, Kai Yu
- Abstract要約: Webベースの構造読解のタスクを紹介します。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
Webベースの構造読み取りデータセットであるWebSRCを提案する。
- 参考スコア(独自算出の注目度): 24.285934026113473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web search is an essential way for human to obtain information, but it's
still a great challenge for machines to understand the contents of web pages.
In this paper, we introduce the task of web-based structural reading
comprehension. Given a web page and a question about it, the task is to find an
answer from the web page. This task requires a system not only to understand
the semantics of texts but also the structure of the web page. Moreover, we
proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset.
WebSRC consists of 0.44M question-answer pairs, which are collected from 6.5K
web pages with corresponding HTML source code, screenshots, and metadata. Each
question in WebSRC requires a certain structural understanding of a web page to
answer, and the answer is either a text span on the web page or yes/no. We
evaluate various strong baselines on our dataset to show the difficulty of our
task. We also investigate the usefulness of structural information and visual
features. Our dataset and task are publicly available at
https://speechlab-sjtu.github.io/WebSRC/.
- Abstract(参考訳): ウェブ検索は人間が情報を得るための必須の方法ですが、マシンがWebページの内容を理解することは依然として大きな課題です。
本稿では,Web上の構造的読解の課題を紹介する。
ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。
このタスクは、テキストの意味だけでなく、Webページの構造を理解するためにもシステムを必要とする。
さらに,新しいWebベース構造読解データセットであるWebSRCを提案する。
WebSRCは0.44万の質問応答対で構成され、HTMLソースコード、スクリーンショット、メタデータを含む6.5KのWebページから収集される。
websrcの各質問には、答えるためにwebページの構造的な理解が必要であり、答えはwebページのテキストスパンかyes/noである。
我々は,タスクの難易度を示すために,データセット上で様々な強いベースラインを評価する。
また,構造情報と視覚特性の有用性についても検討した。
私たちのデータセットとタスクはhttps://speechlab-sjtu.github.io/websrc/で公開されている。
関連論文リスト
- ClueWeb22: 10 Billion Web Documents with Rich Information [28.68403988636645]
ClueWeb22は、豊富な情報を扱う100億のWebページを提供する。
その設計は、学術・産業研究を支援するための高品質で大規模なウェブコーパスの必要性に影響された。
論文 参考訳(メタデータ) (2022-11-29T00:49:40Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - TIE: Topological Information Enhanced Structural Reading Comprehension
on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。
TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。
実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文 参考訳(メタデータ) (2022-05-13T03:21:09Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - The Klarna Product Page Dataset: A RealisticBenchmark for Web
Representation Learning [60.48174655983521]
本稿では,DOM木要素表現学習の未探索問題に対処する。
一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。
ウェブページの大規模かつ現実的なデータセットを提示する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - A Large Visual, Qualitative and Quantitative Dataset of Web Pages [4.5002924206836]
49,438ページの大規模なデータセットを作成しました。
視覚、テキスト、数値のデータタイプで構成され、世界中のすべての国を含み、幅広いトピックを検討しています。
論文 参考訳(メタデータ) (2021-05-15T01:31:25Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。