論文の概要: DoSA : A System to Accelerate Annotations on Business Documents with
Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2211.04934v1
- Date: Wed, 9 Nov 2022 15:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:47:07.280720
- Title: DoSA : A System to Accelerate Annotations on Business Documents with
Human-in-the-Loop
- Title(参考訳): DoSA : ヒューマン・イン・ザ・ループによるビジネス文書のアノテーションの高速化システム
- Authors: Neelesh K Shukla, Msp Raja, Raghu Katikeri, Amit Vaid
- Abstract要約: DoSA(Document Specific Automated s)は、新しいブートストラップアプローチを使用して、アノテーションを自動生成するアノテータを支援する。
オープンソースの ready-to-use 実装が GitHub で公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Business documents come in a variety of structures, formats and information
needs which makes information extraction a challenging task. Due to these
variations, having a document generic model which can work well across all
types of documents and for all the use cases seems far-fetched. For
document-specific models, we would need customized document-specific labels. We
introduce DoSA (Document Specific Automated Annotations), which helps
annotators in generating initial annotations automatically using our novel
bootstrap approach by leveraging document generic datasets and models. These
initial annotations can further be reviewed by a human for correctness. An
initial document-specific model can be trained and its inference can be used as
feedback for generating more automated annotations. These automated annotations
can be reviewed by human-in-the-loop for the correctness and a new improved
model can be trained using the current model as pre-trained model before going
for the next iteration. In this paper, our scope is limited to Form like
documents due to limited availability of generic annotated datasets, but this
idea can be extended to a variety of other documents as more datasets are
built. An open-source ready-to-use implementation is made available on GitHub
https://github.com/neeleshkshukla/DoSA.
- Abstract(参考訳): ビジネス文書にはさまざまな構造、フォーマット、情報要求があり、情報抽出が困難な作業になる。
これらのバリエーションにより、すべての種類のドキュメントとすべてのユースケースでうまく機能するドキュメントジェネリックモデルを持つことは、はるかに困難に思える。
ドキュメント特化モデルには、カスタマイズされたドキュメント特化ラベルが必要です。
DoSA(Document Specific Automated Annotations)を導入し、ドキュメントジェネリックデータセットとモデルを活用することで、新しいブートストラップアプローチを使用して、アノテーションの自動生成を支援する。
これらの初期アノテーションは、人間によってさらに正しくレビューすることができる。
最初のドキュメント固有のモデルはトレーニングでき、推論はより自動化されたアノテーションを生成するためのフィードバックとして使うことができる。
これらの自動アノテーションは、正確性のためにHuman-in-the-loopによってレビューすることができ、新しい改善されたモデルは、次のイテレーションに進む前に、トレーニング済みモデルとして現在のモデルを使用してトレーニングすることができる。
本稿では,汎用的なアノテートデータセットが利用可能な範囲が限られているため,私たちの範囲はドキュメント形式に制限されているが,より多くのデータセットが構築されるにつれて,この考え方を他のさまざまなドキュメントにも拡張することができる。
オープンソース実装はgithub https://github.com/neeleshkshukla/dosaで入手できる。
関連論文リスト
- Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - IncDSI: Incrementally Updatable Document Retrieval [35.5697863674097]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。