論文の概要: Reading Order Matters: Information Extraction from Visually-rich
Documents by Token Path Prediction
- arxiv url: http://arxiv.org/abs/2310.11016v1
- Date: Tue, 17 Oct 2023 06:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:21:37.404441
- Title: Reading Order Matters: Information Extraction from Visually-rich
Documents by Token Path Prediction
- Title(参考訳): 読解順序事項:トークンパス予測による視覚豊かな文書からの情報抽出
- Authors: Chong Zhang, Ya Guo, Yi Tu, Huan Chen, Jinyang Tang, Huijia Zhu, Qi
Zhang, Tao Gui
- Abstract要約: トークンパス予測(TPP)は、ドキュメント内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドである。
TPPは、ドキュメントレイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。
また, VrD-NERシステムの性能評価のために, スキャンした文書に対して, NERのベンチマークデータセットを2つ改訂した。
- 参考スコア(独自算出の注目度): 30.827288164068992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal pre-trained models have significantly improved
information extraction from visually-rich documents (VrDs), in which named
entity recognition (NER) is treated as a sequence-labeling task of predicting
the BIO entity tags for tokens, following the typical setting of NLP. However,
BIO-tagging scheme relies on the correct order of model inputs, which is not
guaranteed in real-world NER on scanned VrDs where text are recognized and
arranged by OCR systems. Such reading order issue hinders the accurate marking
of entities by BIO-tagging scheme, making it impossible for sequence-labeling
methods to predict correct named entities. To address the reading order issue,
we introduce Token Path Prediction (TPP), a simple prediction head to predict
entity mentions as token sequences within documents. Alternative to token
classification, TPP models the document layout as a complete directed graph of
tokens, and predicts token paths within the graph as entities. For better
evaluation of VrD-NER systems, we also propose two revised benchmark datasets
of NER on scanned documents which can reflect real-world scenarios. Experiment
results demonstrate the effectiveness of our method, and suggest its potential
to be a universal solution to various information extraction tasks on
documents.
- Abstract(参考訳): マルチモーダル事前学習モデルにおける最近の進歩は,nlpの典型的設定に従って,トークンの生体情報タグを予測するためのシーケンスラベルタスクとして名前付きエンティティ認識(ner)を処理した,視覚リッチドキュメント(vrd)からの情報抽出を大幅に改善した。
しかし、BIOタグ付け方式は、テキストがOCRシステムによって認識され、配列されるスキャンされたVrD上で、実際のNERでは保証されないモデル入力の正しい順序に依存している。
このような読み順問題は、BIOタグ付け方式によるエンティティの正確なマーキングを妨げるため、シーケンシャルラベル法では正確な名前付きエンティティを予測できない。
読み出し順序問題に対処するために、文書内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドであるトークンパス予測(TPP)を導入する。
トークン分類の代わりに、TPPは文書レイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。
VrD-NERシステムのより良い評価のために,実世界のシナリオを反映できるスキャンされた文書上でのNERのベンチマークデータセットを2種類提案する。
実験の結果,提案手法の有効性を実証し,文書上の様々な情報抽出タスクに対する普遍的な解決の可能性を示した。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Exploiting Counter-Examples for Active Learning with Partial labels [45.665996618836516]
本稿では, 部分ラベルを用いたemphactive learning(ALPL)の新たな課題について検討する。
この設定では、オラクルはクエリサンプルに部分的なラベルを付加し、必要な正確なラベル付けプロセスからオラクルを緩和する。
我々は,このパターンを直接学習するために,シンプルだが効果的なWorseNetを提案する。
論文 参考訳(メタデータ) (2023-07-14T15:41:53Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for
Visual Information Extraction using Sequences [27.75850798545413]
TCPN(Tag, Copy, Predict Network)と呼ばれる弱教師付き学習フレームワークを提案する。
提案手法は,いくつかの公開ベンチマークにおいて新しい最先端性能を示し,その有効性を十分に証明する。
論文 参考訳(メタデータ) (2021-06-20T11:56:46Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。