論文の概要: Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2005.11017v1
- Date: Fri, 22 May 2020 06:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:41:05.710405
- Title: Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models
- Title(参考訳): 学習済み言語モデルを用いた視覚豊かなドキュメントのためのロバストレイアウト対応IE
- Authors: Mengxi Wei, Yifan He, Qiong Zhang
- Abstract要約: 視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
- 参考スコア(独自算出の注目度): 23.42593796135709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many business documents processed in modern NLP and IR pipelines are visually
rich: in addition to text, their semantics can also be captured by visual
traits such as layout, format, and fonts. We study the problem of information
extraction from visually rich documents (VRDs) and present a model that
combines the power of large pre-trained language models and graph neural
networks to efficiently encode both textual and visual information in business
documents. We further introduce new fine-tuning objectives to improve in-domain
unsupervised fine-tuning to better utilize large amount of unlabeled in-domain
data. We experiment on real world invoice and resume data sets and show that
the proposed method outperforms strong text-based RoBERTa baselines by 6.3%
absolute F1 on invoices and 4.7% absolute F1 on resumes. When evaluated in a
few-shot setting, our method requires up to 30x less annotation data than the
baseline to achieve the same level of performance at ~90% F1.
- Abstract(参考訳): 現代のnlpとirパイプラインで処理される多くのビジネス文書は視覚的にリッチである:テキストに加えて、その意味論はレイアウト、フォーマット、フォントといった視覚的な特徴によってもキャプチャできる。
本研究では,視覚リッチ文書(vrds)からの情報抽出の問題を調査し,大規模事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせて,ビジネス文書におけるテキスト情報と視覚情報の両方を効率的にエンコードするモデルを提案する。
さらに,ドメイン内の非教師なし微調整を改善するための新たな微調整手法を導入し,大量の未ラベルインドメインデータを活用する。
実世界の請求書を検証し、データセットを再開し、提案手法が強いテキストベースのRoBERTaベースラインを6.3%、履歴書を4.7%で上回ることを示す。
数ショットで評価した場合、90%のf1で同じレベルの性能を達成するためには、ベースラインよりも最大30倍少ないアノテーションデータが必要となる。
関連論文リスト
- UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks [1.9331361036118608]
トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
スキャンした文書のよりコンテクスト化された表現をモデルに学習させる2つの新しい事前学習タスクを導入する。
また,情報抽出におけるBIESOタグを復号化するためのポストプロセッシングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-11T13:05:23Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - VRDU: A Benchmark for Visually-rich Document Understanding [22.040372755535767]
より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
論文 参考訳(メタデータ) (2022-11-15T03:17:07Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Information Extraction from Visually Rich Documents with Font Style
Embeddings [0.6291443816903801]
本稿では,トークンスタイルと視覚表現の両方が利用可能である場合に,コンピュータビジョンの利用に挑戦する。
実世界の3つの複雑なデータセットに対する実験では、生の視覚的な埋め込みではなくトークンスタイルの属性をベースとした埋め込みが有用であることが示されている。
論文 参考訳(メタデータ) (2021-11-07T10:29:54Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。