論文の概要: A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding
- arxiv url: http://arxiv.org/abs/2305.03668v1
- Date: Fri, 5 May 2023 16:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:14:20.022297
- Title: A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding
- Title(参考訳): マルチレベルマルチモーダルWebページ理解のための生成タスクスイート
- Authors: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan
A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
- Abstract要約: 2Mページのウィキペディアウェブページスイート(WikiWeb2M)を紹介する。
我々は,ページ記述生成,セクション要約,コンテキスト画像キャプションという3つの生成タスクにおいて,その有用性を検証する。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
- 参考スコア(独自算出の注目度): 48.00110675968677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Webpages have been a rich, scalable resource for vision-language and language
only tasks. Yet only pieces of webpages are kept: image-caption pairs, long
text articles, or raw HTML, never all in one place. Webpage tasks have
resultingly received little attention and structured image-text data left
underused. To study multimodal webpage understanding, we introduce the
Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three
generative tasks: page description generation, section summarization, and
contextual image captioning. We design a novel attention mechanism Prefix
Global, which selects the most relevant image and text content as global tokens
to attend to the rest of the webpage for context. By using page structure to
separate such tokens, it performs better than full attention with lower
computational complexity. Experiments show that the new annotations from
WikiWeb2M improve task performance compared to data from prior work. We also
include ablations on sequence length, input features, and model size.
- Abstract(参考訳): Webページは視覚言語と言語のみのタスクのためのリッチでスケーラブルなリソースです。
しかし、画像キャプチャーペア、長いテキスト記事、あるいは生のHTMLなど、すべてのWebページが一箇所に収まることはない。
Webページタスクは、ほとんど注目されず、未使用のイメージテキストデータが構造化されている。
マルチモーダルWebページ理解を研究するために,200万ページのウィキペディアWebページスイート(WikiWeb2M)を紹介する。
ページ記述生成,セクション要約,コンテクスト画像キャプションの3つの生成タスクにおいて,その有用性を検証する。
我々は,最も関連性の高い画像とテキストを,webページの他の部分のコンテクストに対応するためのグローバルトークンとして選択する,新しいアテンション機構プレフィックス・グローバルを設計した。
ページ構造を使ってトークンを分離することで、計算の複雑さが低く、完全な注意力よりもパフォーマンスが向上する。
WikiWeb2Mの新しいアノテーションは、以前の作業のデータと比較してタスクのパフォーマンスを改善する。
また,シーケンス長,入力特徴,モデルサイズに対するアブレーションも含む。
関連論文リスト
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。