論文の概要: VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction
- arxiv url: http://arxiv.org/abs/2407.06826v1
- Date: Tue, 9 Jul 2024 12:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:07:16.726491
- Title: VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction
- Title(参考訳): VRDSynth:多言語で視覚的にリッチな文書情報抽出プログラム
- Authors: Thanh-Dat Nguyen, Tung Do-Viet, Hung Nguyen-Duy, Tuan-Hai Luu, Hung Le, Bach Le, Patanamon, Thongtanunam,
- Abstract要約: 企業は、意思決定のために、レシート、医療記録、保険フォームなどの視覚的に豊かなドキュメント(VRD)を問い合わせる必要があります。
VRDからエンティティを抽出する既存のテクニックは、新しいレイアウトに苦労するか、あるいは広範な事前トレーニングデータを必要とする。
事前学習データを必要としない多言語VRDから実体関係を自動的に抽出するプログラムであるVRD Synthを紹介する。
- 参考スコア(独自算出の注目度): 17.86257953829859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Businesses need to query visually rich documents (VRDs) like receipts, medical records, and insurance forms to make decisions. Existing techniques for extracting entities from VRDs struggle with new layouts or require extensive pre-training data. We introduce VRDSynth, a program synthesis method to automatically extract entity relations from multilingual VRDs without pre-training data. To capture the complexity of VRD domain, we design a domain-specific language (DSL) to capture spatial and textual relations to describe the synthesized programs. Along with this, we also derive a new synthesis algorithm utilizing frequent spatial relations, search space pruning, and a combination of positive, negative, and exclusive programs to improve coverage. We evaluate VRDSynth on the FUNSD and XFUND benchmarks for semantic entity linking, consisting of 1,592 forms in 8 languages. VRDSynth outperforms state-of-the-art pre-trained models (LayoutXLM, InfoXLMBase, and XLMRobertaBase) in 5, 6, and 7 out of 8 languages, respectively, improving the F1 score by 42% over LayoutXLM in English. To test the extensibility of the model, we further improve VRDSynth with automated table recognition, creating VRDSynth(Table), and compare it with extended versions of the pre-trained models, InfoXLM(Large) and XLMRoberta(Large). VRDSynth(Table) outperforms these baselines in 4 out of 8 languages and in average F1 score. VRDSynth also significantly reduces memory footprint (1M and 380MB vs. 1.48GB and 3GB for LayoutXLM) while maintaining similar time efficiency.
- Abstract(参考訳): 企業は、意思決定のために、レシート、医療記録、保険フォームなどの視覚的に豊かなドキュメント(VRD)を問い合わせる必要があります。
VRDからエンティティを抽出する既存のテクニックは、新しいレイアウトに苦労するか、あるいは広範な事前トレーニングデータを必要とする。
事前学習データを必要としない多言語VRDから実体関係を自動的に抽出するプログラム合成法であるVRDSynthを紹介する。
VRDドメインの複雑さを捉えるため、合成プログラムを記述するための空間的およびテキスト的関係をキャプチャするドメイン固有言語(DSL)を設計する。
また,空間関係の頻繁化,探索空間の刈り取り,肯定的,否定的,排他的なプログラムを組み合わせることで,カバー範囲を向上する新しい合成アルゴリズムを考案した。
セマンティックエンティティリンクのためのFUNSDおよびXFUNDベンチマークを用いて,8言語で1,592種類のVRDSynthを評価する。
VRDSynthは8言語中5、6、7言語で最先端の事前訓練モデル(LayoutXLM、InfoXLMBase、XLMRobertaBase)より優れており、英語ではLayoutXLMよりもF1スコアが42%向上している。
モデルの拡張性をテストするため、自動テーブル認識によるVRDSynthをさらに改善し、VRDSynth(Table)を作成し、事前訓練されたモデルの拡張バージョンであるInfoXLM(Large)とXLMRoberta(Large)と比較する。
VRDSynth(Table)は8言語中4言語、平均F1スコアでこれらのベースラインを上回っている。
VRDSynthはメモリフットプリント(1Mと380MB対1.48GB、LayoutXLMは3GB)を大幅に削減し、同様の時間効率を維持している。
関連論文リスト
- XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - RGAT: A Deeper Look into Syntactic Dependency Information for
Coreference Resolution [8.017036537163008]
我々は、事前学習されたBERTと構文関係グラフ注意ネットワーク(RGAT)を組み合わせたエンドツーエンドの解決法を提案する。
特に、RGATモデルが最初に提案され、次に、構文依存グラフを理解し、より優れたタスク固有の構文埋め込みを学ぶために使用される。
BERT埋め込みと構文埋め込みを組み合わせた統合アーキテクチャを構築し、下流タスクのブレンディング表現を生成する。
論文 参考訳(メタデータ) (2023-09-10T09:46:38Z) - GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [51.68383826362895]
本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文 参考訳(メタデータ) (2023-07-07T13:43:44Z) - A Deep Learning Framework for Verilog Autocompletion Towards Design and
Verification Automation [0.33598755777055367]
本稿では,Verilog自動補完モデルの学習のための新しいディープラーニングフレームワークを提案する。
このフレームワークは、一般的なプログラミング言語のデータに基づいて事前訓練されたモデルを統合し、ターゲットの下流タスクに類似するようにキュレートされたデータセット上でそれらを微調整する。
実験により、提案されたフレームワークは、スクラッチからトレーニングされたモデルと比較して、それぞれ9.5%、6.7%、および6.9%、BLEU、ROUGE-L、chrFのスコアが向上することが示された。
論文 参考訳(メタデータ) (2023-04-26T21:56:03Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。