論文の概要: Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution
- arxiv url: http://arxiv.org/abs/2305.07498v1
- Date: Fri, 12 May 2023 14:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:39:55.456679
- Title: Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution
- Title(参考訳): 野生の視覚情報抽出:実用的なデータセットとエンドツーエンドソリューション
- Authors: Jianfeng Kuang, Wei Hua, Dingkang Liang, Mingkun Yang, Deqiang Jiang,
Bo Ren, Yu Zhou, and Xiang Bai
- Abstract要約: 視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
- 参考スコア(独自算出の注目度): 48.582143391707085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual information extraction (VIE), which aims to simultaneously perform OCR
and information extraction in a unified framework, has drawn increasing
attention due to its essential role in various applications like understanding
receipts, goods, and traffic signs. However, as existing benchmark datasets for
VIE mainly consist of document images without the adequate diversity of layout
structures, background disturbs, and entity categories, they cannot fully
reveal the challenges of real-world applications. In this paper, we propose a
large-scale dataset consisting of camera images for VIE, which contains not
only the larger variance of layout, backgrounds, and fonts but also much more
types of entities. Besides, we propose a novel framework for end-to-end VIE
that combines the stages of OCR and information extraction in an end-to-end
learning fashion. Different from the previous end-to-end approaches that
directly adopt OCR features as the input of an information extraction module,
we propose to use contrastive learning to narrow the semantic gap caused by the
difference between the tasks of OCR and information extraction. We evaluate the
existing end-to-end methods for VIE on the proposed dataset and observe that
the performance of these methods has a distinguishable drop from SROIE (a
widely used English dataset) to our proposed dataset due to the larger variance
of layout and entities. These results demonstrate our dataset is more practical
for promoting advanced VIE algorithms. In addition, experiments demonstrate
that the proposed VIE method consistently achieves the obvious performance
gains on the proposed and SROIE datasets.
- Abstract(参考訳): 統一的な枠組みでocrと情報抽出を同時に行うことを目的とした視覚情報抽出(vie)は,レシートや商品,交通標識の理解など,さまざまなアプリケーションにおいて重要な役割を担っているため,注目を集めている。
しかしながら、vieの既存のベンチマークデータセットは、レイアウト構造、背景障害、エンティティカテゴリの十分な多様性のないドキュメントイメージで構成されているため、実世界のアプリケーションの課題を完全に明らかにすることはできない。
本稿では,レイアウトや背景,フォントのばらつきだけでなく,より多くの種類のエンティティを含むvie用カメラ画像からなる大規模データセットを提案する。
さらに、OCRの段階と情報抽出をエンドツーエンド学習方式で組み合わせた、エンドツーエンドVIEのための新しいフレームワークを提案する。
情報抽出モジュールの入力としてOCR機能を直接採用する従来のエンドツーエンドアプローチとは違って,OCRのタスクと情報抽出の差による意味的ギャップを狭めるために,コントラスト学習を用いることを提案する。
提案したデータセット上で,既存のVIEのエンドツーエンド手法を評価し,これらの手法の性能がSROIE(広く使用されている英語データセット)から提案データセットへの差が大きいことを観察した。
これらの結果は,先進的vieアルゴリズムの推進において,データセットがより実用的であることを示す。
さらに,提案するvie法が,提案およびsroieデータセットの明らかな性能向上を一貫して達成していることを示す実験を行った。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。