論文の概要: Form2Seq : A Framework for Higher-Order Form Structure Extraction
- arxiv url: http://arxiv.org/abs/2107.04419v1
- Date: Fri, 9 Jul 2021 13:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:42:41.068303
- Title: Form2Seq : A Framework for Higher-Order Form Structure Extraction
- Title(参考訳): Form2Seq : 高次構造抽出のためのフレームワーク
- Authors: Milan Aggarwal, Hiresh Gupta, Mausoom Sarkar, Balaji Krishnamurthy
- Abstract要約: テキストを用いた構造抽出のための新しいシーケンス・ツー・シーケンス(Seq2Seq)を提案する。
1)フィールドキャプション,リスト項目などの下位要素を10種類に分類すること,2)テキストフィールド,チョイスフィールド,チョイスグループなどの下位要素を情報収集機構として使用する高次構成要素に分類すること,の2つの課題について論じる。
実験結果から, 分類作業の精度90%, F1が75.82, 86.01, 61.63のテキストベースアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 14.134131448981295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document structure extraction has been a widely researched area for decades
with recent works performing it as a semantic segmentation task over document
images using fully-convolution networks. Such methods are limited by image
resolution due to which they fail to disambiguate structures in dense regions
which appear commonly in forms. To mitigate this, we propose Form2Seq, a novel
sequence-to-sequence (Seq2Seq) inspired framework for structure extraction
using text, with a specific focus on forms, which leverages relative spatial
arrangement of structures. We discuss two tasks; 1) Classification of low-level
constituent elements (TextBlock and empty fillable Widget) into ten types such
as field captions, list items, and others; 2) Grouping lower-level elements
into higher-order constructs, such as Text Fields, ChoiceFields and
ChoiceGroups, used as information collection mechanism in forms. To achieve
this, we arrange the constituent elements linearly in natural reading order,
feed their spatial and textual representations to Seq2Seq framework, which
sequentially outputs prediction of each element depending on the final task. We
modify Seq2Seq for grouping task and discuss improvements obtained through
cascaded end-to-end training of two tasks versus training in isolation.
Experimental results show the effectiveness of our text-based approach
achieving an accuracy of 90% on classification task and an F1 of 75.82, 86.01,
61.63 on groups discussed above respectively, outperforming segmentation
baselines. Further we show our framework achieves state of the results for
table structure recognition on ICDAR 2013 dataset.
- Abstract(参考訳): 文書構造抽出は数十年にわたって広く研究されてきた分野であり、近年では完全畳み込みネットワークを用いた文書画像のセマンティックセグメンテーションタスクとして行われている。
このような手法は画像分解能によって制限されるが、一般的に形に現れる濃密な領域の構造を曖昧にしないためである。
そこで本稿では,テキストを用いた構造抽出のための新しいシーケンシャル・ツー・シークエンス(seq2seq)フレームワークであるform2seqを提案する。
1) 低レベルの構成要素(TextBlockと空の充填可能なウィジェット)をフィールドキャプションやリストアイテムなど10種類に分類し,2) 低レベルの要素をテキストフィールド, ChoiceFields, ChoiceGroupsなどの高次の構成要素に分類し,フォームの情報収集機構として利用する。
これを実現するため、構成要素を自然読み順に線形に配置し、その空間表現とテキスト表現をseq2seqフレームワークに供給し、最終タスクに応じて各要素の予測を順次出力する。
タスクをグループ化するためにseq2seqを修正し、2つのタスクのエンドツーエンドトレーニングを分離したトレーニングと比較することで得られた改善について検討する。
実験の結果, 分類タスクにおいて90%の精度を達成するテキストベースアプローチの有効性を示し, 上記のグループでは75.82, 86.01, 61.63のf1がセグメンテーションベースラインを上回った。
さらに,ICDAR 2013 データセット上でのテーブル構造認識の結果の状況を示す。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - Nested and Balanced Entity Recognition using Multi-Task Learning [0.0]
本稿では,重複するケースとネストされたケースの複雑さを扱う部分層ネットワークアーキテクチャを提案する。
私たちは、概念(CR)と名前付きエンティティ(NER)という2種類のエンティティを認識するために、このアーキテクチャを訓練し、評価します。
提案手法は最先端のNER性能を実現し,従来のCR手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-11T07:52:32Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Efficient strategies for hierarchical text classification: External
knowledge and auxiliary tasks [3.5557219875516655]
我々は、あるクラス分類の上位から下位まで、文書のカテゴリを予測するための一連の推論手順を実行する。
効率的なアプローチでは、よく知られた2つの英語データセットにおいて、パラメータを劇的に減らし、過去の研究を上回りました。
論文 参考訳(メタデータ) (2020-05-05T20:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。