Fugu-MT 論文翻訳(概要): XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

論文の概要: XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

arxiv url: http://arxiv.org/abs/2405.17336v2
Date: Wed, 18 Dec 2024 16:55:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 18:59:48.954343
Title: XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser
Title（参考訳）: XFormParser: 単純かつ効果的なマルチモーダル多言語半構造化ホルムパーザ
Authors: Xianfu Cheng, Hang Zhang, Jian Yang, Xiang Li, Weixiao Zhou, Fei Liu, Kui Wu, Xiangyuan Guan, Tao Sun, Xianjie Wu, Tongliang Li, Zhoujun Li,
Abstract要約: textbfXForm textbfPARSER(textbfXForm)を導入する。 InDFormSFTも開発しています。InDFormSFTは、さまざまな産業的文脈でフォームのパースニーズに対処するデータセットです。
参考スコア（独自算出の注目度）: 32.62155069664013
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the domain of Document AI, parsing semi-structured image form is a crucial Key Information Extraction (KIE) task. The advent of pre-trained multimodal models significantly empowers Document AI frameworks to extract key information from form documents in different formats such as PDF, Word, and images. Nonetheless, form parsing is still encumbered by notable challenges like subpar capabilities in multilingual parsing and diminished recall in industrial contexts in rich text and rich visuals. In this work, we introduce a simple but effective \textbf{M}ultimodal and \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}), which anchored on a comprehensive Transformer-based pre-trained language model and innovatively amalgamates semantic entity recognition (SER) and relation extraction (RE) into a unified framework. Combined with Bi-LSTM, the performance of multilingual parsing is significantly improved. Furthermore, we develop InDFormSFT, a pioneering supervised fine-tuning (SFT) industrial dataset that specifically addresses the parsing needs of forms in various industrial contexts. XFormParser has demonstrated its unparalleled effectiveness and robustness through rigorous testing on established benchmarks. Compared to existing state-of-the-art (SOTA) models, XFormParser notably achieves up to 1.79\% F1 score improvement on RE tasks in language-specific settings. It also exhibits exceptional cross-task performance improvements in multilingual and zero-shot settings. The codes, datasets, and pre-trained models are publicly available at https://github.com/zhbuaa0/xformparser.
Abstract（参考訳）: Document AIの領域では、半構造化画像形式を解析することが重要なキー情報抽出(KIE)タスクである。事前訓練されたマルチモーダルモデルの出現により、Document AIフレームワークはPDF、Word、イメージなど、さまざまなフォーマットでフォームドキュメントからキー情報を抽出することが可能になる。それでも、フォームパーシングは、多言語構文解析におけるサブパー機能や、リッチテキストとリッチビジュアルの産業的文脈におけるリコールの減少といった、注目すべき課題に悩まされている。本研究では,トランスフォーマーをベースとした包括的事前学習言語モデルと,革新的にアマルガメート・セマンティック・エンティティ認識(SER)と関係抽出(RE)を統一したフレームワークに固定した,単純で効果的な \textbf{M}ultimodal と \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser})を導入する。 Bi-LSTMと組み合わせることで,多言語構文解析の性能が大幅に向上した。 InDFormSFTは、様々な産業的文脈における形態の解析ニーズに特に対処する、SFT産業データセットのパイオニアである。 XFormParserは、確立されたベンチマークの厳格なテストを通じて、その非並列の有効性と堅牢性を実証した。既存の最先端(SOTA)モデルと比較して、XFormParserは言語固有の設定でREタスクにおける最大1.79\% F1スコアの改善を実現している。また、マルチランガルおよびゼロショット設定において、卓越したクロスタスクパフォーマンス向上を示す。コード、データセット、事前トレーニングされたモデルはhttps://github.com/zhbuaa0/xformparser.comで公開されている。

関連論文リスト

Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文参考訳（メタデータ） (2025-07-11T07:25:55Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。 SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文参考訳（メタデータ） (2024-06-13T02:35:55Z)
MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing [4.536003573070846]
意味表現解析モデルのための言語間学習戦略を導入する。事前訓練された言語モデルにエンコードされた言語間のアライメントを利用する。実験では、英語、ドイツ語、イタリア語、オランダ語におけるDRS節とグラフ解析の大幅な改善が示されている。
論文参考訳（メタデータ） (2024-06-03T07:02:57Z)
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (2024-03-28T03:51:14Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文参考訳（メタデータ） (2024-03-04T03:21:40Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (2023-05-19T18:00:03Z)
PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文参考訳（メタデータ） (2023-04-24T03:54:48Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-06T12:07:18Z)
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding [33.78249073009646]
構造化文書理解のための単純で効果的な言語非依存型レイアウト変換器(LiLT)を提案する。 LiLTは単一の言語の構造化ドキュメント上で事前訓練され、その後、他の言語で直接微調整される。 8言語の実験結果から、LiLTは様々なダウンストリームベンチマークにおいて、競争力や優れたパフォーマンスを達成可能であることが示されている。
論文参考訳（メタデータ） (2022-02-28T10:33:01Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)
Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。 3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文参考訳（メタデータ） (2021-09-09T14:51:11Z)
X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文参考訳（メタデータ） (2021-06-07T16:40:05Z)
mForms : Multimodal Form-Filling with Question Answering [1.7614751781649955]
本稿では,マルチモーダルな自然言語質問回答 (QA) としてタスクを再構築し,フォームフィリングへの新たなアプローチを提案する。 GUI形式の要素(テキストフィールド、ボタン、アイコンなど)を自然言語の質問に翻訳し、これらの質問が要素のマルチモーダルなセマンティクスをキャプチャする。その結果, この手法は, スパーストレーニング条件に対する堅牢な精度を維持するだけでなく, トレーニングデータの約10分の1をATIS上で0.97の最先端F1を達成することができた。
論文参考訳（メタデータ） (2020-11-24T19:47:53Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文参考訳（メタデータ） (2020-04-26T07:04:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。