論文の概要: Multi-Modal Association based Grouping for Form Structure Extraction
- arxiv url: http://arxiv.org/abs/2107.04396v1
- Date: Fri, 9 Jul 2021 12:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:47:08.841633
- Title: Multi-Modal Association based Grouping for Form Structure Extraction
- Title(参考訳): 形態構造抽出のためのマルチモーダルアソシエーションに基づくグループ化
- Authors: Milan Aggarwal, Mausoom Sarkar, Hiresh Gupta, Balaji Krishnamurthy
- Abstract要約: 形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
- 参考スコア(独自算出の注目度): 14.134131448981295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document structure extraction has been a widely researched area for decades.
Recent work in this direction has been deep learning-based, mostly focusing on
extracting structure using fully convolution NN through semantic segmentation.
In this work, we present a novel multi-modal approach for form structure
extraction. Given simple elements such as textruns and widgets, we extract
higher-order structures such as TextBlocks, Text Fields, Choice Fields, and
Choice Groups, which are essential for information collection in forms. To
achieve this, we obtain a local image patch around each low-level element
(reference) by identifying candidate elements closest to it. We process textual
and spatial representation of candidates sequentially through a BiLSTM to
obtain context-aware representations and fuse them with image patch features
obtained by processing it through a CNN. Subsequently, the sequential decoder
takes this fused feature vector to predict the association type between
reference and candidates. These predicted associations are utilized to
determine larger structures through connected components analysis. Experimental
results show the effectiveness of our approach achieving a recall of 90.29%,
73.80%, 83.12%, and 52.72% for the above structures, respectively,
outperforming semantic segmentation baselines significantly. We show the
efficacy of our method through ablations, comparing it against using individual
modalities. We also introduce our new rich human-annotated Forms Dataset.
- Abstract(参考訳): 文書構造抽出は数十年にわたって広く研究されてきた。
この方向の最近の研究は深層学習に基づくもので、主にセマンティックセグメンテーションによる完全な畳み込みNNを用いた構造抽出に焦点を当てている。
本稿では,形式構造抽出のための新しいマルチモーダルアプローチを提案する。
テキストランやウィジェットなどの単純な要素が与えられた場合,フォーム情報収集に不可欠なテキストブロック,テキストフィールド,選択フィールド,選択グループなどの高次構造を抽出する。
これを実現するために,各低レベル要素(参照)に近接する候補要素を同定し,局所的な画像パッチを得る。
我々は、BiLSTMを通して候補のテキストおよび空間表現を逐次処理し、文脈認識表現を取得し、それをCNNで処理した画像パッチ特徴と融合する。
その後、シーケンシャルデコーダはこの融合特徴ベクトルを用いて参照と候補の関連型を予測する。
これらの予測関連性を利用して、連結成分分析によりより大きな構造を決定する。
実験の結果, 本手法は, それらの構造に対して, 90.29%, 73.80%, 83.12%, 52.72%のリコールを達成し, 意味的セグメンテーションベースラインを著しく上回った。
本手法の有効性をアブレーションにより示し,個別のモダリティを用いて比較した。
また、新しいリッチな人間アノテーション付きフォームデータセットも紹介します。
関連論文リスト
- Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Form2Seq : A Framework for Higher-Order Form Structure Extraction [14.134131448981295]
テキストを用いた構造抽出のための新しいシーケンス・ツー・シーケンス(Seq2Seq)を提案する。
1)フィールドキャプション,リスト項目などの下位要素を10種類に分類すること,2)テキストフィールド,チョイスフィールド,チョイスグループなどの下位要素を情報収集機構として使用する高次構成要素に分類すること,の2つの課題について論じる。
実験結果から, 分類作業の精度90%, F1が75.82, 86.01, 61.63のテキストベースアプローチの有効性が示された。
論文 参考訳(メタデータ) (2021-07-09T13:10:51Z) - Structural Textile Pattern Recognition and Processing Based on
Hypergraphs [2.4963790083110426]
織物アーカイブの構造に基づく類似の織物パターンを認識するアプローチを紹介します。
まず,ハイパーグラフを用いて織物構造を表現し,これらのグラフから織物パターンを記述するk-neighbourhoodの多重集合を抽出する。
結果の多重集合は、様々な距離測度と様々なクラスタリングアルゴリズムを用いてクラスタ化される。
論文 参考訳(メタデータ) (2021-03-21T00:44:40Z) - DocStruct: A Multimodal Method to Extract Hierarchy Structure in
Document for General Form Understanding [15.814603044233085]
我々は、最も基本的なコンポーネント、キーと値のペアに焦点を合わせ、特徴抽出にマルチモーダル手法を採用する。
我々は、最先端モデルとターゲット抽出モジュールを用いて、マルチモーダルな特徴を抽出する。
結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。
論文 参考訳(メタデータ) (2020-10-15T08:54:17Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。