論文の概要: LAMBERT: Layout-Aware (Language) Modeling for information extraction
- arxiv url: http://arxiv.org/abs/2002.08087v5
- Date: Fri, 28 May 2021 12:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:04:51.763263
- Title: LAMBERT: Layout-Aware (Language) Modeling for information extraction
- Title(参考訳): LAMBERT:情報抽出のためのレイアウト・アウェア(言語)モデリング
- Authors: {\L}ukasz Garncarek and Rafa{\l} Powalski and Tomasz Stanis{\l}awek
and Bartosz Topolski and Piotr Halama and Micha{\l} Turski and Filip
Grali\'nski
- Abstract要約: 本稿では,非自明なレイアウトが局所的意味論に影響を及ぼす文書理解問題に対する新しいアプローチを提案する。
我々は、OCRシステムから得られたレイアウト機能を使用できるように、Transformerエンコーダアーキテクチャを変更した。
視覚的にリッチな文書からなるデータセットにおいて,本モデルが優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 2.5907188217412456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a simple new approach to the problem of understanding documents
where non-trivial layout influences the local semantics. To this end, we modify
the Transformer encoder architecture in a way that allows it to use layout
features obtained from an OCR system, without the need to re-learn language
semantics from scratch. We only augment the input of the model with the
coordinates of token bounding boxes, avoiding, in this way, the use of raw
images. This leads to a layout-aware language model which can then be
fine-tuned on downstream tasks.
The model is evaluated on an end-to-end information extraction task using
four publicly available datasets: Kleister NDA, Kleister Charity, SROIE and
CORD. We show that our model achieves superior performance on datasets
consisting of visually rich documents, while also outperforming the baseline
RoBERTa on documents with flat layout (NDA \(F_{1}\) increase from 78.50 to
80.42). Our solution ranked first on the public leaderboard for the Key
Information Extraction from the SROIE dataset, improving the SOTA
\(F_{1}\)-score from 97.81 to 98.17.
- Abstract(参考訳): 本稿では,非自明なレイアウトが局所的意味論に影響を及ぼす文書理解問題に対して,簡単な新しいアプローチを提案する。
この目的のために,ocrシステムから取得したレイアウト機能を,スクラッチから言語セマンティクスを再学習することなく使用できるようにトランスフォーマーエンコーダアーキテクチャを変更した。
トークン境界ボックスの座標でモデルの入力を増大させるだけで、この方法では生画像の使用を避けることができる。
これにより、下流タスクで微調整可能なレイアウト対応言語モデルが実現される。
このモデルは、Kleister NDA、Kleister Charity、SROIE、CORDの4つの公開データセットを使用して、エンドツーエンドの情報抽出タスクで評価される。
本モデルは,視覚的にリッチな文書からなるデータセットにおいて優れた性能を実現すると同時に,フラットレイアウトの文書ではベースラインであるrobertaを上回った(nda \(f_{1}\)は78.50から80.42に増加した)。
我々のソリューションは、SROIEデータセットからキー情報抽出の公開リーダーボードにランクインし、SOTA \(F_{1}\)スコアを97.81から98.17に改善した。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [51.68383826362895]
本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文 参考訳(メタデータ) (2023-07-07T13:43:44Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。