論文の概要: SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding
- arxiv url: http://arxiv.org/abs/2406.08757v1
- Date: Thu, 13 Jun 2024 02:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:38:10.870869
- Title: SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding
- Title(参考訳): SRFUND: 形式理解のための多階層階層構造再構成ベンチマーク
- Authors: Jiefeng Ma, Yan Wang, Chenyu Liu, Jun Du, Yu Hu, Zhenrong Zhang, Pengfei Hu, Qing Wang, Jianshu Zhang,
- Abstract要約: 階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
- 参考スコア(独自算出の注目度): 55.48936731641802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately identifying and organizing textual content is crucial for the automation of document processing in the field of form understanding. Existing datasets, such as FUNSD and XFUND, support entity classification and relationship prediction tasks but are typically limited to local and entity-level annotations. This limitation overlooks the hierarchically structured representation of documents, constraining comprehensive understanding of complex forms. To address this issue, we present the SRFUND, a hierarchically structured multi-task form understanding benchmark. SRFUND provides refined annotations on top of the original FUNSD and XFUND datasets, encompassing five tasks: (1) word to text-line merging, (2) text-line to entity merging, (3) entity category classification, (4) item table localization, and (5) entity-based full-document hierarchical structure recovery. We meticulously supplemented the original dataset with missing annotations at various levels of granularity and added detailed annotations for multi-item table regions within the forms. Additionally, we introduce global hierarchical structure dependencies for entity relation prediction tasks, surpassing traditional local key-value associations. The SRFUND dataset includes eight languages including English, Chinese, Japanese, German, French, Spanish, Italian, and Portuguese, making it a powerful tool for cross-lingual form understanding. Extensive experimental results demonstrate that the SRFUND dataset presents new challenges and significant opportunities in handling diverse layouts and global hierarchical structures of forms, thus providing deep insights into the field of form understanding. The original dataset and implementations of baseline methods are available at https://sprateam-ustc.github.io/SRFUND
- Abstract(参考訳): テキストコンテンツの正確な識別と整理は、フォーム理解の分野における文書処理の自動化に不可欠である。
FUNSDやXFUNDといった既存のデータセットはエンティティ分類と関係予測タスクをサポートしているが、通常はローカルおよびエンティティレベルのアノテーションに限られる。
この制限は、文書の階層的に構造化された表現を見落とし、複雑な形式の包括的理解を制限している。
この問題に対処するために、階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDは、(1)テキストからテキストへのマージ、(2)エンティティへのマージ、(3)エンティティカテゴリ分類、(4)アイテムテーブルのローカライゼーション、(5)エンティティベースのフルドキュメント階層構造回復の5つのタスクを含む、オリジナルのFUNSDおよびXFUNDデータセットの上に洗練されたアノテーションを提供する。
様々な粒度のアノテーションが欠如している元のデータセットを慎重に補足し、フォーム内の複数項目のテーブル領域に詳細なアノテーションを追加した。
さらに,従来の局所的キー値関係を超越した,エンティティ関係予測タスクのグローバル階層構造依存性を導入する。
SRFUNDデータセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
SRFUNDデータセットは多様なレイアウトや形態のグローバル階層構造を扱う上で、新たな課題と重要な機会を示し、フォーム理解の分野に深い洞察を与えている。
ベースラインメソッドのオリジナルのデータセットと実装はhttps://sprateam-ustc.github.io/SRFUNDで公開されている。
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - MGSA: Multi-Granularity Graph Structure Attention for Knowledge Graph-to-Text Generation [10.607080796475815]
本稿では,事前学習言語モデル(PLM)に基づくMGSA(Multi-granularity Graph Structure Attention)を提案する。
モデルアーキテクチャのエンコーダは、エンティティレベルの構造符号化モジュールと、ワードレベルの構造符号化モジュールと、両方の構造から情報を合成する集約モジュールとを備える。
KG-to-Text GenerationベンチマークデータセットとWebNLG,EventNarrativeを用いて,MGSAモデルの広範な評価を行った。
論文 参考訳(メタデータ) (2024-09-16T14:01:03Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。