論文の概要: WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
- arxiv url: http://arxiv.org/abs/2305.05432v1
- Date: Tue, 9 May 2023 13:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:40:08.935523
- Title: WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
- Title(参考訳): WikiWeb2M: ページレベルのマルチモーダルウィキペディアデータセット
- Authors: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan
A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
- Abstract要約: ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
- 参考スコア(独自算出の注目度): 48.00110675968677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.
- Abstract(参考訳): Webページは、言語とビジョン言語タスクのための豊富なリソースです。
しかし、画像キャプチャーペア、長いテキスト記事、あるいは生のHTMLなど、すべてのWebページが一箇所に収まることはない。
Webページタスクは、ほとんど注目されず、構造化された画像テキストデータが過小評価されている。
マルチモーダルWebページ理解を研究するために,Wikipedia Webpage 2M (WikiWeb2M) スイートを導入する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia
Image-Caption Matching [9.56339585008373]
そこで我々は,Wikipediaイメージキャプションマッチングチャレンジに参加するためにデザインしたシステムをKaggleで紹介する。
提案手法は,Kaggleチャレンジの私的リーダーボード上で,正規化された非カウント累積ゲイン(nDCG)の0.53値を得るという,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2022-06-21T14:30:14Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - WikiHist.html: English Wikipedia's Full Revision History in HTML Format [12.86558129722198]
我々は,マークアップの局所的な例を用いて大量のwikitextを解析する並列化アーキテクチャを開発した。
我々は、ウィキペディアのハイパーリンクの実証分析において、生のウィキテキストよりもWikiHist.htmlの利点を強調した。
論文 参考訳(メタデータ) (2020-01-28T10:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。