論文の概要: A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding
- arxiv url: http://arxiv.org/abs/2305.03668v2
- Date: Fri, 20 Oct 2023 13:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:14:50.456925
- Title: A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding
- Title(参考訳): マルチレベルマルチモーダルWebページ理解のための生成タスクスイート
- Authors: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan
A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
- Abstract要約: ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
- 参考スコア(独自算出の注目度): 66.6468787004067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Webpages have been a rich, scalable resource for vision-language and language
only tasks. Yet only pieces of webpages are kept in existing datasets:
image-caption pairs, long text articles, or raw HTML, never all in one place.
Webpage tasks have resultingly received little attention and structured
image-text data left underused. To study multimodal webpage understanding, we
introduce the Wikipedia Webpage suite (WikiWeb2M) containing 2M pages with all
of the associated image, text, and structure data. We verify its utility on
three generative tasks: page description generation, section summarization, and
contextual image captioning. We design a novel attention mechanism Prefix
Global, which selects the most relevant image and text content as global tokens
to attend to the rest of the webpage for context. By using page structure to
separate such tokens, it performs better than full attention with lower
computational complexity. Extensive experiments show that the new data in
WikiWeb2M improves task performance compared to prior work.
- Abstract(参考訳): Webページは視覚言語と言語のみのタスクのためのリッチでスケーラブルなリソースです。
しかし、既存のデータセットに保持されているのは、画像キャプチャペア、長いテキスト記事、あるいは生のHTMLのみである。
Webページタスクは、ほとんど注目されず、未使用のイメージテキストデータが構造化されている。
マルチモーダルなWebページ理解を研究するために,Wikipedia Webpage Suite (WikiWeb2M) を紹介した。
ページ記述生成,セクション要約,コンテクスト画像キャプションの3つの生成タスクにおいて,その有用性を検証する。
我々は,最も関連性の高い画像とテキストを,webページの他の部分のコンテクストに対応するためのグローバルトークンとして選択する,新しいアテンション機構プレフィックス・グローバルを設計した。
ページ構造を使ってトークンを分離することで、計算の複雑さが低く、完全な注意力よりもパフォーマンスが向上する。
WikiWeb2Mの新しいデータは、以前の作業と比べてタスクパフォーマンスを改善する。
関連論文リスト
- Dual-View Visual Contextualization for Web Navigation [38.59025909548412]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。