論文の概要: DUBLIN -- Document Understanding By Language-Image Network
- arxiv url: http://arxiv.org/abs/2305.14218v3
- Date: Sat, 17 Jun 2023 05:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:04:09.322814
- Title: DUBLIN -- Document Understanding By Language-Image Network
- Title(参考訳): DUBLIN -- 言語画像ネットワークによる文書理解
- Authors: Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan,
Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som,
Vishrav Chaudhary, Saurabh Tiwary
- Abstract要約: 3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
- 参考スコア(独自算出の注目度): 30.180268400082053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual document understanding is a complex task that involves analyzing both
the text and the visual elements in document images. Existing models often rely
on manual feature engineering or domain-specific pipelines, which limit their
generalization ability across different document types and languages. In this
paper, we propose DUBLIN, which is pretrained on web pages using three novel
objectives: Masked Document Text Generation Task, Bounding Box Task, and
Rendered Question Answering Task, that leverage both the spatial and semantic
information in the document images. Our model achieves competitive or
state-of-the-art results on several benchmarks, such as Web-Based Structural
Reading Comprehension, Document Visual Question Answering, Key Information
Extraction, Diagram Understanding, and Table Question Answering. In particular,
we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75
and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms
the current pixel-based SOTA models on DocVQA, InfographicsVQA, OCR-VQA and
AI2D datasets by 4.6%, 6.5%, 2.6% and 21%, respectively. We also achieve
competitive performance on RVL-CDIP document classification. Moreover, we
create new baselines for text-based datasets by rendering them as document
images to promote research in this direction.
- Abstract(参考訳): 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。
既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。
本稿では,文書画像の空間的情報と意味的情報の両方を活用する,masked Document Text Generation Task,Bunding Box Task,Rendered Question Answering Taskの3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
本モデルは,webベースの構造的読解,文書の視覚的質問応答,キー情報抽出,ダイアグラム理解,テーブル質問応答など,いくつかのベンチマークにおいて,競争的あるいは最先端的な結果を達成する。
特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。
また,我々のモデルでは,docvqa,infographicsvqa,ocr-vqa,ai2dデータセットの画素ベースのsataモデルが4.6%,6.5%,2.6%,21%であった。
また、RVL-CDIP文書分類における競合性能も達成する。
さらに、文書画像としてレンダリングすることでテキストベースのデータセットの新しいベースラインを作成し、この方向の研究を促進する。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:58:33Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia
Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。
我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。
AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文 参考訳(メタデータ) (2023-04-04T17:11:34Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。