Fugu-MT 論文翻訳(概要): A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

論文の概要: A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

arxiv url: http://arxiv.org/abs/2305.03668v2
Date: Fri, 20 Oct 2023 13:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 12:14:50.456925
Title: A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
Title（参考訳）: マルチレベルマルチモーダルWebページ理解のための生成タスクスイート
Authors: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
Abstract要約: ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
参考スコア（独自算出の注目度）: 66.6468787004067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept in existing datasets: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) containing 2M pages with all of the associated image, text, and structure data. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Extensive experiments show that the new data in WikiWeb2M improves task performance compared to prior work.
Abstract（参考訳）: Webページは視覚言語と言語のみのタスクのためのリッチでスケーラブルなリソースです。しかし、既存のデータセットに保持されているのは、画像キャプチャペア、長いテキスト記事、あるいは生のHTMLのみである。 Webページタスクは、ほとんど注目されず、未使用のイメージテキストデータが構造化されている。マルチモーダルなWebページ理解を研究するために,Wikipedia Webpage Suite (WikiWeb2M) を紹介した。ページ記述生成,セクション要約,コンテクスト画像キャプションの3つの生成タスクにおいて,その有用性を検証する。我々は,最も関連性の高い画像とテキストを,webページの他の部分のコンテクストに対応するためのグローバルトークンとして選択する,新しいアテンション機構プレフィックス・グローバルを設計した。ページ構造を使ってトークンを分離することで、計算の複雑さが低く、完全な注意力よりもパフォーマンスが向上する。 WikiWeb2Mの新しいデータは、以前の作業と比べてタスクパフォーマンスを改善する。

関連論文リスト

Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文参考訳（メタデータ） (2024-10-17T17:48:54Z)
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (2024-09-05T11:09:00Z)
Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:59:46Z)
Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。 Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文参考訳（メタデータ） (2024-02-06T23:52:10Z)
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。 WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文参考訳（メタデータ） (2023-05-09T13:20:59Z)
WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (2022-02-01T04:44:02Z)
DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文参考訳（メタデータ） (2022-01-25T20:10:32Z)
CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。 CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文参考訳（メタデータ） (2022-01-19T10:45:38Z)
FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文参考訳（メタデータ） (2020-10-21T04:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。