論文の概要: Radically Lower Data-Labeling Costs for Visually Rich Document
Extraction Models
- arxiv url: http://arxiv.org/abs/2210.16391v1
- Date: Fri, 28 Oct 2022 20:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:51:34.344123
- Title: Radically Lower Data-Labeling Costs for Visually Rich Document
Extraction Models
- Title(参考訳): ビジュアルリッチ文書抽出モデルにおけるラディカルなデータラベルコスト低減
- Authors: Yichao Zhou, James B. Wendt, Navneet Potti, Jing Xie, Sandeep Tata
- Abstract要約: 本稿では,ラベリング作業の簡略化を目的としたSelective Labelingを提案する。
実験により, ラベル付きデータの取得コストを10倍に削減し, 精度を損なうことができることを示した。
- 参考スコア(独自算出の注目度): 13.16696804867477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key bottleneck in building automatic extraction models for visually rich
documents like invoices is the cost of acquiring the several thousand
high-quality labeled documents that are needed to train a model with acceptable
accuracy. We propose Selective Labeling to simplify the labeling task to
provide "yes/no" labels for candidate extractions predicted by a model trained
on partially labeled documents. We combine this with a custom active learning
strategy to find the predictions that the model is most uncertain about. We
show through experiments on document types drawn from 3 different domains that
selective labeling can reduce the cost of acquiring labeled data by $10\times$
with a negligible loss in accuracy.
- Abstract(参考訳): 請求書のような視覚的にリッチな文書の自動抽出モデルを構築する上で重要なボトルネックは、モデルのトレーニングに必要な数千の高品質なラベル付き文書を取得するコストである。
部分的にラベル付けされた文書でトレーニングされたモデルによって予測される候補抽出のための"yes/no"ラベルを提供するため、ラベル付けタスクを簡略化する選択的ラベル付けを提案する。
これをカスタムのアクティブな学習戦略と組み合わせて、モデルが最も不確実な予測を見つけます。
3つの異なるドメインから抽出された文書タイプについて実験を行い,ラベル付きデータの取得コストを10\times$に削減し,精度を損なうことを示した。
関連論文リスト
- The Benefits of Label-Description Training for Zero-Shot Text
Classification [35.27224341685012]
事前訓練された言語モデルはゼロショットテキスト分類を改善した。
最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-05-03T16:19:31Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Zero-shot Task Transfer for Invoice Extraction via Class-aware QA
Ensemble [0.0]
本稿では、レイアウト、ローカライズ、ドメイン文書抽出のための、意図的にシンプルながら斬新なゼロショットシステムであるVESPAを提案する。
本稿では,情報抽出(IE)タスクを自然言語質問応答(QA)タスクに,工学的なタスク固有のアーキテクチャを使わずに簡単に移行することで,この問題に対処できることを示す。
論文 参考訳(メタデータ) (2021-08-13T05:36:07Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。