論文の概要: Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2005.11017v1
- Date: Fri, 22 May 2020 06:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:41:05.710405
- Title: Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models
- Title(参考訳): 学習済み言語モデルを用いた視覚豊かなドキュメントのためのロバストレイアウト対応IE
- Authors: Mengxi Wei, Yifan He, Qiong Zhang
- Abstract要約: 視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
- 参考スコア(独自算出の注目度): 23.42593796135709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many business documents processed in modern NLP and IR pipelines are visually
rich: in addition to text, their semantics can also be captured by visual
traits such as layout, format, and fonts. We study the problem of information
extraction from visually rich documents (VRDs) and present a model that
combines the power of large pre-trained language models and graph neural
networks to efficiently encode both textual and visual information in business
documents. We further introduce new fine-tuning objectives to improve in-domain
unsupervised fine-tuning to better utilize large amount of unlabeled in-domain
data. We experiment on real world invoice and resume data sets and show that
the proposed method outperforms strong text-based RoBERTa baselines by 6.3%
absolute F1 on invoices and 4.7% absolute F1 on resumes. When evaluated in a
few-shot setting, our method requires up to 30x less annotation data than the
baseline to achieve the same level of performance at ~90% F1.
- Abstract(参考訳): 現代のnlpとirパイプラインで処理される多くのビジネス文書は視覚的にリッチである:テキストに加えて、その意味論はレイアウト、フォーマット、フォントといった視覚的な特徴によってもキャプチャできる。
本研究では,視覚リッチ文書(vrds)からの情報抽出の問題を調査し,大規模事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせて,ビジネス文書におけるテキスト情報と視覚情報の両方を効率的にエンコードするモデルを提案する。
さらに,ドメイン内の非教師なし微調整を改善するための新たな微調整手法を導入し,大量の未ラベルインドメインデータを活用する。
実世界の請求書を検証し、データセットを再開し、提案手法が強いテキストベースのRoBERTaベースラインを6.3%、履歴書を4.7%で上回ることを示す。
数ショットで評価した場合、90%のf1で同じレベルの性能を達成するためには、ベースラインよりも最大30倍少ないアノテーションデータが必要となる。
関連論文リスト
- Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Information Extraction from Visually Rich Documents with Font Style
Embeddings [0.6291443816903801]
本稿では,トークンスタイルと視覚表現の両方が利用可能である場合に,コンピュータビジョンの利用に挑戦する。
実世界の3つの複雑なデータセットに対する実験では、生の視覚的な埋め込みではなくトークンスタイルの属性をベースとした埋め込みが有用であることが示されている。
論文 参考訳(メタデータ) (2021-11-07T10:29:54Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。