論文の概要: EIGEN: Expert-Informed Joint Learning Aggregation for High-Fidelity
Information Extraction from Document Images
- arxiv url: http://arxiv.org/abs/2311.13993v1
- Date: Thu, 23 Nov 2023 13:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:44:57.862586
- Title: EIGEN: Expert-Informed Joint Learning Aggregation for High-Fidelity
Information Extraction from Document Images
- Title(参考訳): eigen: 文書画像からの忠実度情報抽出のための専門家による共同学習アグリゲーション
- Authors: Abhishek Singh, Venkatapathy Subramanian, Ayush Maheshwari, Pradeep
Narayan, Devi Prasad Shetty, Ganesh Ramakrishnan
- Abstract要約: レイアウトフォーマットの多様性が高いため,文書画像からの情報抽出は困難である。
本稿では,ルールベースの手法とデータプログラミングを用いたディープラーニングモデルを組み合わせた新しい手法であるEIGENを提案する。
我々のEIGENフレームワークは、ラベル付きデータインスタンスがほとんどない状態で、最先端のディープモデルの性能を大幅に向上させることができることを実証的に示しています。
- 参考スコア(独自算出の注目度): 27.36816896426097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Extraction (IE) from document images is challenging due to the
high variability of layout formats. Deep models such as LayoutLM and BROS have
been proposed to address this problem and have shown promising results.
However, they still require a large amount of field-level annotations for
training these models. Other approaches using rule-based methods have also been
proposed based on the understanding of the layout and semantics of a form such
as geometric position, or type of the fields, etc. In this work, we propose a
novel approach, EIGEN (Expert-Informed Joint Learning aGgrEatioN), which
combines rule-based methods with deep learning models using data programming
approaches to circumvent the requirement of annotation of large amounts of
training data. Specifically, EIGEN consolidates weak labels induced from
multiple heuristics through generative models and use them along with a small
number of annotated labels to jointly train a deep model. In our framework, we
propose the use of labeling functions that include incorporating contextual
information thus capturing the visual and language context of a word for
accurate categorization. We empirically show that our EIGEN framework can
significantly improve the performance of state-of-the-art deep models with the
availability of very few labeled data instances. The source code is available
at
https://github.com/ayushayush591/EIGEN-High-Fidelity-Extraction-Document-Images.
- Abstract(参考訳): 文書画像からの情報抽出(IE)は,レイアウトフォーマットの多様性が高いため困難である。
LayoutLMやBROSのような深層モデルはこの問題に対処するために提案されており、有望な結果を示している。
しかし、これらのモデルのトレーニングには、まだ大量のフィールドレベルのアノテーションが必要です。
幾何学的位置やフィールドの種類といった形式のレイアウトやセマンティクスの理解に基づいて、ルールベースの手法を用いた他のアプローチも提案されている。
本研究では,ルールベース手法とディープラーニングモデルを組み合わせて,大量のトレーニングデータのアノテーション要件を回避するための新しい手法であるeigen(expert-informed joint learning aggreation)を提案する。
具体的には、eigenは複数のヒューリスティックから引き起こされる弱いラベルを生成モデルを通じて統合し、少数の注釈付きラベルと共に使用して深層モデルを訓練する。
本稿では,文脈情報を組み込んだラベル付け機能を用いて,単語の視覚的・言語的コンテキストを正確に分類する手法を提案する。
EIGENフレームワークは,ラベル付きデータインスタンスをほとんど使用せずに,最先端のディープモデルの性能を大幅に向上させることができることを実証的に示す。
ソースコードはhttps://github.com/ayushayush591/EIGEN-High-Fidelity-Extraction-Document-Imagesで公開されている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding [39.67113788660731]
グラフ対応LAnguage Models (GLaM) を開発するためのフレームワークを紹介する。
特定のグラフに基づく知識でモデルを構築することは、構造に基づく推論のためのモデルの能力を拡張することを実証する。
論文 参考訳(メタデータ) (2024-02-09T19:53:29Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - Representing Knowledge by Spans: A Knowledge-Enhanced Model for
Information Extraction [7.077412533545456]
本稿では,エンティティとリレーションの両方の表現を同時に学習する事前学習モデルを提案する。
スパンをスパンモジュールで効率的に符号化することで、私たちのモデルはエンティティとそれらの関係を表現できますが、既存のモデルよりもパラメータが少なくなります。
論文 参考訳(メタデータ) (2022-08-20T07:32:25Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - G2MF-WA: Geometric Multi-Model Fitting with Weakly Annotated Data [15.499276649167975]
弱いアノテーションでは、ほとんどの手動アノテーションは正しくなければならないが、必然的に間違ったアノテーションと混同されている。
本稿では,WAデータを完全に活用してマルチモデル適合性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-01-20T04:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。