論文の概要: DOM-LM: Learning Generalizable Representations for HTML Documents
- arxiv url: http://arxiv.org/abs/2201.10608v1
- Date: Tue, 25 Jan 2022 20:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:24:59.296173
- Title: DOM-LM: Learning Generalizable Representations for HTML Documents
- Title(参考訳): DOM-LM: HTMLドキュメントの汎用表現学習
- Authors: Xiang Deng, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Huan Sun
- Abstract要約: 我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
- 参考スコア(独自算出の注目度): 33.742833774918786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: HTML documents are an important medium for disseminating information on the
Web for human consumption. An HTML document presents information in multiple
text formats including unstructured text, structured key-value pairs, and
tables. Effective representation of these documents is essential for machine
understanding to enable a wide range of applications, such as Question
Answering, Web Search, and Personalization. Existing work has either
represented these documents using visual features extracted by rendering them
in a browser, which is typically computationally expensive, or has simply
treated them as plain text documents, thereby failing to capture useful
information presented in their HTML structure. We argue that the text and HTML
structure together convey important semantics of the content and therefore
warrant a special treatment for their representation learning. In this paper,
we introduce a novel representation learning approach for web pages, dubbed
DOM-LM, which addresses the limitations of existing approaches by encoding both
text and DOM tree structure with a transformer-based encoder and learning
generalizable representations for HTML documents via self-supervised
pre-training. We evaluate DOM-LM on a variety of webpage understanding tasks,
including Attribute Extraction, Open Information Extraction, and Question
Answering. Our extensive experiments show that DOM-LM consistently outperforms
all baselines designed for these tasks. In particular, DOM-LM demonstrates
better generalization performance both in few-shot and zero-shot settings,
making it attractive for making it suitable for real-world application settings
with limited labeled data.
- Abstract(参考訳): HTML文書は人的消費のためにウェブ上で情報を広める重要な媒体である。
HTML文書は、構造化されていないテキスト、構造化されたキーと値のペア、テーブルを含む複数のテキスト形式で情報を表示する。
これらの文書の効果的な表現は、質問応答、web検索、パーソナライゼーションなど、幅広いアプリケーションを可能にするために、機械理解に不可欠である。
既存の作業では、これらのドキュメントをブラウザでレンダリングすることによって抽出したビジュアル機能を使用して表現するか、あるいは単に平易なテキストドキュメントとして扱うだけで、html構造で提示された有用な情報をキャプチャできないかのどちらかである。
我々は、テキストとHTML構造が共にコンテンツの重要な意味を伝達し、表現学習のための特別な処理を保証していると論じる。
本稿では,テキストとDOMツリー構造の両方をトランスフォーマーベースエンコーダで符号化し,自己教師型事前学習によりHTML文書の汎用表現を学習することで,既存のアプローチの限界に対処する,DOM-LMと呼ばれる新しいWebページ表現学習手法を提案する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおいてDOM-LMを評価する。
我々の広範な実験は、DOM-LMがこれらのタスクのために設計された全てのベースラインを一貫して上回っていることを示している。
特に、DOM-LMは、少数ショットとゼロショットの両方で、より良い一般化性能を示しており、ラベル付きデータに制限された現実世界のアプリケーション設定に適合させるのに魅力的である。
関連論文リスト
- HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.36019283532854]
Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。
RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。
我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:58:36Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - MarkupLM: Pre-training of Text and Markup Language for Visually-rich
Document Understanding [35.35388421383703]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。
本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。
実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T09:17:28Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。