Fugu-MT 論文翻訳(概要): Technical Report on Web-based Visual Corpus Construction for Visual Document Understanding

論文の概要: Technical Report on Web-based Visual Corpus Construction for Visual Document Understanding

arxiv url: http://arxiv.org/abs/2211.03256v1
Date: Mon, 7 Nov 2022 01:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 15:17:49.552581
Title: Technical Report on Web-based Visual Corpus Construction for Visual Document Understanding
Title（参考訳）: ビジュアル文書理解のためのWebベースビジュアルコーパス構築技術報告
Authors: Donghyun Kim, Teakgyu Hong, Moonbin Yim, Yoonsik Kim, Geewook Kim
Abstract要約: Web ベースの Visual Corpus Builder (Webvicob) というデータセット生成エンジンを提案する。 Webvicobは、生のWikipedia HTMLダンプから大規模なビジュアルコーパス(テキストアノテーション付き画像)を簡単に構築できる。
参考スコア（独自算出の注目度）: 16.48845190268161
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a dataset generator engine named Web-based Visual Corpus Builder (Webvicob). Webvicob can readily construct a large-scale visual corpus (i.e., images with text annotations) from a raw Wikipedia HTML dump. In this report, we validate that Webvicob-generated data can cover a wide range of context and knowledge and helps practitioners to build a powerful Visual Document Understanding (VDU) backbone. The proposed engine is publicly available at https://github.com/clovaai/webvicob.
Abstract（参考訳）: Web ベースの Visual Corpus Builder (Webvicob) というデータセット生成エンジンを提案する。 webvicobは、wikipediaの生のhtmlダンプから、大規模なビジュアルコーパス(テキストアノテーション付き画像)を簡単に構築できる。本報告では,webvicobが生成するデータは幅広い文脈と知識をカバーし,実践者が強力な視覚文書理解(vdu)バックボーンを構築するのに役立つことを検証する。提案されたエンジンはhttps://github.com/clovaai/webvicob.comで公開されている。

関連論文リスト

RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文参考訳（メタデータ） (2024-03-12T18:14:48Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文参考訳（メタデータ） (2023-05-05T16:38:05Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。 witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。 WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文参考訳（メタデータ） (2021-03-02T18:13:54Z)
VisualMRC: Machine Reading Comprehension on Document Images [4.057968826847943]
質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。 VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
論文参考訳（メタデータ） (2021-01-27T09:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。