論文の概要: Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2411.14957v2
- Date: Mon, 25 Nov 2024 09:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:55.656716
- Title: Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation
- Title(参考訳): 合成ラベル生成と知識蒸留による地中真理ラベルのない異種文書からの情報抽出
- Authors: Aniket Bhattacharyya, Anurag Tripathi,
- Abstract要約: ラベルなしVRDコーパスにおける合成ラベル生成手法であるタスク認識命令に基づくラベリング(TAIL)を提案する。
応答型知識蒸留を用いた多モード視覚リッチ文書理解モデル(VRDU)をTAILラベル上で微調整する。
得られたモデルが、最先端のLMMよりも大規模な多国籍組織の内部費用文書に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 0.2302001830524133
- License:
- Abstract: Invoices and receipts submitted by employees are visually rich documents (VRDs) with textual, visual and layout information. To protect against the risk of fraud and abuse, it is crucial for organizations to efficiently extract desired information from submitted receipts. This helps in the assessment of key factors such as appropriateness of the expense claim, adherence to spending and transaction policies, the validity of the receipt, as well as downstream anomaly detection at various levels. These documents are heterogeneous, with multiple formats and languages, uploaded with different image qualities, and often do not contain ground truth labels for the efficient training of models. In this paper we propose Task Aware Instruction-based Labelling (TAIL), a method for synthetic label generation in VRD corpuses without labels, and fine-tune a multimodal Visually Rich Document Understanding Model (VRDU) on TAIL labels using response-based knowledge distillation without using the teacher model's weights or training dataset to conditionally generate annotations in the appropriate format. Using a benchmark external dataset where ground truth labels are available, we demonstrate conditions under which our approach performs at par with Claude 3 Sonnet through empirical studies. We then show that the resulting model performs at par or better on the internal expense documents of a large multinational organization than state-of-the-art LMM (large multimodal model) Claude 3 Sonnet while being 85% less costly and ~5X faster, and outperforms layout-aware baselines by more than 10% in Average Normalized Levenshtein Similarity (ANLS) scores due to its ability to reason and extract information from rare formats. Finally, we illustrate the usage of our approach in overpayment prevention.
- Abstract(参考訳): 従業員が提出した請求書と領収書は、テキスト、ビジュアル、レイアウト情報を備えた視覚的にリッチなドキュメント(VRD)である。
不正や虐待のリスクから保護するためには、組織が提出された領収書から望まれる情報を効率的に抽出することが不可欠である。
これは、経費請求の適切性、支出及び取引方針の遵守、領収書の妥当性、下流異常検出などの重要な要因を評価するのに役立つ。
これらの文書は異質であり、複数のフォーマットと言語を持ち、異なる画質でアップロードされ、しばしばモデルの効率的な訓練のための基礎的な真理ラベルを含まない。
本稿では,教師モデルの重みやトレーニングデータセットを使わずに,TAILラベル上のマルチモーダルな視覚的リッチドキュメント理解モデル(VRDU)を微調整し,適切なフォーマットでアノテーションを条件付きで生成するタスク意識指導に基づくラベリング(TAIL)を提案する。
地上の真理ラベルが利用可能なベンチマーク外部データセットを用いて、実証的な研究を通じて、我々のアプローチがClaude 3 Sonnetと同等に機能する条件を実証する。
得られたモデルが、最先端のLMM(大規模マルチモーダルモデル)よりも多国籍組織の内部費用文書に匹敵する性能を示した上で、コストを85%削減し、5倍高速で、レイアウト認識ベースラインを平均正規化レベンシュテイン類似度(ANLS)スコアで10%以上上回る性能で、レアフォーマットから情報を引き出す能力により、レイアウト認識ベースラインを上回ります。
最後に,過払い防止におけるアプローチの活用について述べる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.908992369351976]
Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。
従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。
大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:26:37Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Radically Lower Data-Labeling Costs for Visually Rich Document
Extraction Models [13.16696804867477]
本稿では,ラベリング作業の簡略化を目的としたSelective Labelingを提案する。
実験により, ラベル付きデータの取得コストを10倍に削減し, 精度を損なうことができることを示した。
論文 参考訳(メタデータ) (2022-10-28T20:10:16Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。