論文の概要: DocStruct: A Multimodal Method to Extract Hierarchy Structure in
Document for General Form Understanding
- arxiv url: http://arxiv.org/abs/2010.11685v1
- Date: Thu, 15 Oct 2020 08:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:08:37.751004
- Title: DocStruct: A Multimodal Method to Extract Hierarchy Structure in
Document for General Form Understanding
- Title(参考訳): DocStruct:汎用形式理解のための文書中の階層構造を抽出するマルチモーダル手法
- Authors: Zilong Wang, Mingjie Zhan, Xuebo Liu, Ding Liang
- Abstract要約: 我々は、最も基本的なコンポーネント、キーと値のペアに焦点を合わせ、特徴抽出にマルチモーダル手法を採用する。
我々は、最先端モデルとターゲット抽出モジュールを用いて、マルチモーダルな特徴を抽出する。
結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。
- 参考スコア(独自算出の注目度): 15.814603044233085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Form understanding depends on both textual contents and organizational
structure. Although modern OCR performs well, it is still challenging to
realize general form understanding because forms are commonly used and of
various formats. The table detection and handcrafted features in previous works
cannot apply to all forms because of their requirements on formats. Therefore,
we concentrate on the most elementary components, the key-value pairs, and
adopt multimodal methods to extract features. We consider the form structure as
a tree-like or graph-like hierarchy of text fragments. The parent-child
relation corresponds to the key-value pairs in forms. We utilize the
state-of-the-art models and design targeted extraction modules to extract
multimodal features from semantic contents, layout information, and visual
images. A hybrid fusion method of concatenation and feature shifting is
designed to fuse the heterogeneous features and provide an informative joint
representation. We adopt an asymmetric algorithm and negative sampling in our
model as well. We validate our method on two benchmarks, MedForm and FUNSD, and
extensive experiments demonstrate the effectiveness of our method.
- Abstract(参考訳): 形式理解は、テキストの内容と組織構造の両方に依存する。
現代のOCRはよく機能するが、形式が一般的で様々なフォーマットで使われているため、一般的な形式理解を実現することは依然として困難である。
以前の作品における表検出と手作りの機能は、フォーマットに対する要求のために全ての形式に適用できない。
そこで我々は,基本成分であるキー-値対に集中し,特徴抽出にマルチモーダル手法を採用する。
形式構造は,テキスト断片のツリー状あるいはグラフ状階層であると考える。
親子関係は形内のキー値対に対応する。
本稿では,最先端モデルと対象抽出モジュールの設計を用いて,意味コンテンツ,レイアウト情報,視覚画像からマルチモーダルな特徴を抽出する。
結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。
モデルには非対称なアルゴリズムと負のサンプリングも採用している。
MedForm と FUNSD の2つのベンチマークで本手法の有効性を検証し,本手法の有効性を実証した。
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - GroupLink: An End-to-end Multitask Method for Word Grouping and Relation
Extraction in Form Understanding [25.71040852477277]
単語グループ化と関係抽出を組み合わせたマルチタスク学習によるエンドツーエンドモデルを構築し,各タスクの性能向上を図る。
提案手法を実世界の完全注釈付きノイズスキャンベンチマークであるFUNSDで検証する。
論文 参考訳(メタデータ) (2021-05-10T20:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。