Fugu-MT 論文翻訳(概要): DUBLIN -- Document Understanding By Language-Image Network

論文の概要: DUBLIN -- Document Understanding By Language-Image Network

arxiv url: http://arxiv.org/abs/2305.14218v1
Date: Tue, 23 May 2023 16:34:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 14:44:09.666567
Title: DUBLIN -- Document Understanding By Language-Image Network
Title（参考訳）: DUBLIN -- 言語画像ネットワークによる文書理解
Authors: Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary
Abstract要約: 本稿では,文書画像の空間情報と意味情報を利用する3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 DUBLIN は Web データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。また,本モデルでは,DocVQAおよびAI2Dデータセットにおいて,現行の画素ベースSOTAモデルよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 31.184462001153108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on webpages using three novel objectives that leverage the spatial and semantic information in the document images: Masked Document Content Generation Task, Bounding Box Task, and Rendered Question Answering Task. We evaluate our model on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. We show that our model achieves competitive or better results than the state-of-the-art models on these tasks. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA and AI2D datasets by significant margins, 2% and 21% increase in performance, respectively. Also, DUBLIN is the first ever pixel-based model which achieves comparable to text-based SOTA methods on XFUND dataset for Semantic Entity Recognition showcasing its multilingual capability. Moreover, we create new baselines for text-based datasets by rendering them as document images and applying this model.
Abstract（参考訳）: 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。本稿では,文書画像の空間的・意味的な情報を利用する3つの新しい目的,マスド文書コンテンツ生成タスク,バウンディングボックスタスク,およびRendered Question Answeringタスクを用いて,Webページ上で事前学習を行うDUBLINを提案する。 webベースの構造的読解、文書による視覚的質問応答、キー情報抽出、ダイアグラム理解、テーブル質問応答など、いくつかのベンチマークでモデルを評価した。我々のモデルは,これらのタスクにおける最先端モデルよりも,競争力や優れた結果が得られることを示す。特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。また,本モデルでは,DocVQAおよびAI2Dデータセットにおける現行の画素ベースSOTAモデルよりも,それぞれ2%,21%の性能向上を示す。また、DUBLINは、セマンティックエンティティ認識のためのXFUNDデータセット上のテキストベースのSOTAメソッドに匹敵する、最初のピクセルベースモデルである。さらに、文書画像としてレンダリングし、このモデルを適用することで、テキストベースのデータセットの新しいベースラインを作成する。

関連論文リスト

Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文参考訳（メタデータ） (2023-10-25T10:22:30Z)
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文参考訳（メタデータ） (2023-10-11T17:58:33Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。 AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文参考訳（メタデータ） (2023-04-04T17:11:34Z)
Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (2022-12-05T22:14:49Z)
Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文参考訳（メタデータ） (2021-03-26T13:46:00Z)
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文参考訳（メタデータ） (2020-12-29T13:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。