論文の概要: One-shot Text Field Labeling using Attention and Belief Propagation for
Structure Information Extraction
- arxiv url: http://arxiv.org/abs/2009.04153v1
- Date: Wed, 9 Sep 2020 08:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 08:54:51.613479
- Title: One-shot Text Field Labeling using Attention and Belief Propagation for
Structure Information Extraction
- Title(参考訳): 注意と信条伝播による構造情報抽出のためのワンショットテキストフィールドラベリング
- Authors: Mengli Cheng, Minghui Qiu, Xing Shi, Jun Huang, Wei Lin
- Abstract要約: ワンショットテキストフィールドラベリングのための新しいエンドツーエンドトレーニング可能なアプローチを提案する。
これらの問題を緩和するため、我々はワンショットテキストフィールドラベリングのための新しいエンドツーエンドのトレーニング可能なアプローチを提案した。
実世界のワンショットフィールドラベリングデータセットを収集し,注釈を付けた。
- 参考スコア(独自算出の注目度): 28.687815600404264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Structured information extraction from document images usually consists of
three steps: text detection, text recognition, and text field labeling. While
text detection and text recognition have been heavily studied and improved a
lot in literature, text field labeling is less explored and still faces many
challenges. Existing learning based methods for text labeling task usually
require a large amount of labeled examples to train a specific model for each
type of document. However, collecting large amounts of document images and
labeling them is difficult and sometimes impossible due to privacy issues.
Deploying separate models for each type of document also consumes a lot of
resources. Facing these challenges, we explore one-shot learning for the text
field labeling task. Existing one-shot learning methods for the task are mostly
rule-based and have difficulty in labeling fields in crowded regions with few
landmarks and fields consisting of multiple separate text regions. To alleviate
these problems, we proposed a novel deep end-to-end trainable approach for
one-shot text field labeling, which makes use of attention mechanism to
transfer the layout information between document images. We further applied
conditional random field on the transferred layout information for the
refinement of field labeling. We collected and annotated a real-world one-shot
field labeling dataset with a large variety of document types and conducted
extensive experiments to examine the effectiveness of the proposed model. To
stimulate research in this direction, the collected dataset and the one-shot
model will be released1.
- Abstract(参考訳): 文書画像からの構造化情報抽出は通常、テキスト検出、テキスト認識、テキストフィールドラベリングの3つのステップで構成される。
テキスト検出とテキスト認識は文学において大きく研究され改善されてきたが、テキストフィールドラベリングは研究が進んでおらず、多くの課題に直面している。
テキストラベリングタスクのための既存の学習ベースのメソッドは通常、文書の種類ごとに特定のモデルをトレーニングするためにラベル付きサンプルを大量に必要とします。
しかし,大量の文書画像の収集とラベル付けは,プライバシー上の問題により困難であり,時には不可能である。
ドキュメントの種類ごとに別々のモデルをデプロイすることは、多くのリソースを消費する。
これらの課題に対して,テキストフィールドラベリングタスクのワンショット学習について検討する。
既存のタスクのワンショット学習方法はルールベースであり、複数のテキスト領域からなるランドマークやフィールドがほとんどない混雑した領域のフィールドのラベル付けが困難である。
これらの問題を緩和するために,文書画像間のレイアウト情報伝達に注意機構を利用するワンショットテキストフィールドラベリングのための,新しいエンドツーエンドトレーニング可能なアプローチを提案する。
さらに, 転送レイアウト情報に条件付き確率場を適用し, フィールドラベリングの改良を行った。
実世界のワンショット・フィールドラベリングデータセットを多種多様な文書タイプで収集・注釈付けし,提案モデルの有効性を検討するために広範な実験を行った。
この方向の研究を促進するために、収集されたデータセットとワンショットモデルがリリースされる。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - Domain Adaptive Scene Text Detection via Subcategorization [45.580559833129165]
ドメイン適応型シーンテキストの検出について検討する。
我々は、ネットワーク過度に適合し、ノイズの多い擬似ラベルを緩和する、サブカテゴリ対応の自己学習技術であるSCASTを設計する。
SCASTは、複数の公開ベンチマークで一貫して優れた検出性能を達成する。
論文 参考訳(メタデータ) (2022-12-01T09:15:43Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Let Me Choose: From Verbal Context to Font Selection [50.293897197235296]
フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的としている。
我々は、クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む、新しいデータセットを紹介した。
論文 参考訳(メタデータ) (2020-05-03T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。