論文の概要: GMN: Generative Multi-modal Network for Practical Document Information
Extraction
- arxiv url: http://arxiv.org/abs/2207.04713v1
- Date: Mon, 11 Jul 2022 08:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:32:27.380435
- Title: GMN: Generative Multi-modal Network for Practical Document Information
Extraction
- Title(参考訳): GMN:実用的な文書情報抽出のための生成マルチモーダルネットワーク
- Authors: Haoyu Cao, Jiefeng Ma, Antai Guo, Yiqing Hu, Hao Liu, Deqiang Jiang,
Yinsong Liu, Bo Ren
- Abstract要約: 文書情報抽出 (DIE) は, 実世界の様々な先進的な応用により, 注目を集めている。
本稿では,これらの問題に対処するための実環境シナリオのためのジェネレーティブ・マルチモーダル・ネットワーク(GMN)を提案する。
慎重に設計された空間エンコーダとモード対応マスクモジュールにより、GMNはシーケンシャルな順序にシリアライズが難しい複雑なドキュメントを扱うことができる。
- 参考スコア(独自算出の注目度): 9.24332309286413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Information Extraction (DIE) has attracted increasing attention due
to its various advanced applications in the real world. Although recent
literature has already achieved competitive results, these approaches usually
fail when dealing with complex documents with noisy OCR results or mutative
layouts. This paper proposes Generative Multi-modal Network (GMN) for
real-world scenarios to address these problems, which is a robust multi-modal
generation method without predefined label categories. With the carefully
designed spatial encoder and modal-aware mask module, GMN can deal with complex
documents that are hard to serialized into sequential order. Moreover, GMN
tolerates errors in OCR results and requires no character-level annotation,
which is vital because fine-grained annotation of numerous documents is
laborious and even requires annotators with specialized domain knowledge.
Extensive experiments show that GMN achieves new state-of-the-art performance
on several public DIE datasets and surpasses other methods by a large margin,
especially in realistic scenes.
- Abstract(参考訳): 文書情報抽出 (DIE) は, 実世界の様々な先進的な応用により, 注目を集めている。
近年の文献では競合的な結果が得られているが、ノイズの多いOCR結果や可変レイアウトを持つ複雑なドキュメントを扱う際には通常失敗する。
本稿では,これらの問題に対処するための実環境シナリオのためのGMN(Generative Multi-modal Network)を提案する。
慎重に設計された空間エンコーダとモード対応マスクモジュールにより、GMNはシーケンシャルな順序にシリアライズが難しい複雑なドキュメントを扱うことができる。
さらに、GMNはOCR結果の誤りを許容し、文字レベルのアノテーションを必要としない。
大規模な実験により、GMNはいくつかの公開DIEデータセット上で新しい最先端のパフォーマンスを達成し、特に現実的なシーンにおいて他の手法をはるかに上回っていることが示されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Self-adaptive Multimodal Retrieval-Augmented Generation [0.0]
我々は,自己適応型マルチモーダル検索型生成(SAM-RAG)という新しい手法を提案する。
SAM-RAGは、必要なときに画像キャプションを含む入力クエリに基づいて関連文書を動的にフィルタリングするだけでなく、検索した文書と出力の両方の品質を検証する。
その結果,SAM-RAGは検索精度と応答生成の両面で既存の最先端手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-15T06:39:35Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - GenKIE: Robust Generative Multimodal Document Key Information Extraction [24.365711528919313]
スキャンした文書から重要情報を抽出する手法は,様々な領域に応用されているため注目されている。
我々は,KIEタスクに対処する新しい生成的エンドツーエンドモデルであるGenkieを提案する。
生成モデルの顕著な利点は、OCRエラーの自動修正を可能にすることである。
論文 参考訳(メタデータ) (2023-10-24T19:12:56Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。
本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文 参考訳(メタデータ) (2023-02-10T23:43:46Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。