論文の概要: Radically Lower Data-Labeling Costs for Visually Rich Document
Extraction Models
- arxiv url: http://arxiv.org/abs/2210.16391v1
- Date: Fri, 28 Oct 2022 20:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:51:34.344123
- Title: Radically Lower Data-Labeling Costs for Visually Rich Document
Extraction Models
- Title(参考訳): ビジュアルリッチ文書抽出モデルにおけるラディカルなデータラベルコスト低減
- Authors: Yichao Zhou, James B. Wendt, Navneet Potti, Jing Xie, Sandeep Tata
- Abstract要約: 本稿では,ラベリング作業の簡略化を目的としたSelective Labelingを提案する。
実験により, ラベル付きデータの取得コストを10倍に削減し, 精度を損なうことができることを示した。
- 参考スコア(独自算出の注目度): 13.16696804867477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key bottleneck in building automatic extraction models for visually rich
documents like invoices is the cost of acquiring the several thousand
high-quality labeled documents that are needed to train a model with acceptable
accuracy. We propose Selective Labeling to simplify the labeling task to
provide "yes/no" labels for candidate extractions predicted by a model trained
on partially labeled documents. We combine this with a custom active learning
strategy to find the predictions that the model is most uncertain about. We
show through experiments on document types drawn from 3 different domains that
selective labeling can reduce the cost of acquiring labeled data by $10\times$
with a negligible loss in accuracy.
- Abstract(参考訳): 請求書のような視覚的にリッチな文書の自動抽出モデルを構築する上で重要なボトルネックは、モデルのトレーニングに必要な数千の高品質なラベル付き文書を取得するコストである。
部分的にラベル付けされた文書でトレーニングされたモデルによって予測される候補抽出のための"yes/no"ラベルを提供するため、ラベル付けタスクを簡略化する選択的ラベル付けを提案する。
これをカスタムのアクティブな学習戦略と組み合わせて、モデルが最も不確実な予測を見つけます。
3つの異なるドメインから抽出された文書タイプについて実験を行い,ラベル付きデータの取得コストを10\times$に削減し,精度を損なうことを示した。
関連論文リスト
- Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation [0.2302001830524133]
ラベルなしVRDコーパスにおける合成ラベル生成手法であるタスク認識命令に基づくラベリング(TAIL)を提案する。
応答型知識蒸留を用いた多モード視覚リッチ文書理解モデル(VRDU)をTAILラベル上で微調整する。
得られたモデルが、最先端のLMMよりも大規模な多国籍組織の内部費用文書に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-22T14:16:09Z) - Fine-tuning Vision Classifiers On A Budget [1.688687464836377]
単純なナイーブベイズモデルを用いて真のラベルを推定することで、ラベルや微調整品質を損なうことなく、固定された予算により多くのデータをラベルできることを示す。
我々は,GTX(Garth Truth Extension)と呼ばれる産業用画像のデータセット上で実験を行い,人間のラベルの少ないMLモデルを微調整できることを示した。
論文 参考訳(メタデータ) (2024-09-30T17:54:38Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。