Fugu-MT 論文翻訳(概要): WebSRC: A Dataset for Web-Based Structural Reading Comprehension

論文の概要: WebSRC: A Dataset for Web-Based Structural Reading Comprehension

arxiv url: http://arxiv.org/abs/2101.09465v1
Date: Sat, 23 Jan 2021 09:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-19 10:48:07.178842
Title: WebSRC: A Dataset for Web-Based Structural Reading Comprehension
Title（参考訳）: websrc: webベースの構造理解のためのデータセット
Authors: Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu
Abstract要約: Webベースの構造読解のタスクを紹介します。ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。 Webベースの構造読み取りデータセットであるWebSRCを提案する。
参考スコア（独自算出の注目度）: 24.285934026113473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Web search is an essential way for human to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of web-based structural reading comprehension. Given a web page and a question about it, the task is to find an answer from the web page. This task requires a system not only to understand the semantics of texts but also the structure of the web page. Moreover, we proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset. WebSRC consists of 0.44M question-answer pairs, which are collected from 6.5K web pages with corresponding HTML source code, screenshots, and metadata. Each question in WebSRC requires a certain structural understanding of a web page to answer, and the answer is either a text span on the web page or yes/no. We evaluate various strong baselines on our dataset to show the difficulty of our task. We also investigate the usefulness of structural information and visual features. Our dataset and task are publicly available at https://speechlab-sjtu.github.io/WebSRC/.
Abstract（参考訳）: ウェブ検索は人間が情報を得るための必須の方法ですが、マシンがWebページの内容を理解することは依然として大きな課題です。本稿では,Web上の構造的読解の課題を紹介する。ウェブページとそれに関する質問が与えられたら、そのタスクはウェブページから答えを見つけることである。このタスクは、テキストの意味だけでなく、Webページの構造を理解するためにもシステムを必要とする。さらに,新しいWebベース構造読解データセットであるWebSRCを提案する。 WebSRCは0.44万の質問応答対で構成され、HTMLソースコード、スクリーンショット、メタデータを含む6.5KのWebページから収集される。 websrcの各質問には、答えるためにwebページの構造的な理解が必要であり、答えはwebページのテキストスパンかyes/noである。我々は,タスクの難易度を示すために,データセット上で様々な強いベースラインを評価する。また,構造情報と視覚特性の有用性についても検討した。私たちのデータセットとタスクはhttps://speechlab-sjtu.github.io/websrc/で公開されている。

関連論文リスト

SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning [48.376164461507244]
本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
論文参考訳（メタデータ） (2025-10-02T09:27:15Z)
Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction [83.0216122783429]
Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。 WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
論文参考訳（メタデータ） (2025-04-22T04:07:13Z)
Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文参考訳（メタデータ） (2024-10-17T17:48:54Z)
Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:59:46Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。 WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文参考訳（メタデータ） (2023-05-09T13:20:59Z)
PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。 Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文参考訳（メタデータ） (2023-05-09T12:19:10Z)
A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文参考訳（メタデータ） (2023-05-05T16:38:05Z)
TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。 TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文参考訳（メタデータ） (2022-05-13T03:21:09Z)
WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (2022-02-01T04:44:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。