論文の概要: DeeperDive: The Unreasonable Effectiveness of Weak Supervision in
Document Understanding A Case Study in Collaboration with UiPath Inc
- arxiv url: http://arxiv.org/abs/2208.08000v1
- Date: Wed, 17 Aug 2022 00:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:39:43.907607
- Title: DeeperDive: The Unreasonable Effectiveness of Weak Supervision in
Document Understanding A Case Study in Collaboration with UiPath Inc
- Title(参考訳): DeeperDive:UiPath社とのコラボレーションにおける文書理解における弱スーパービジョンの不合理な効果
- Authors: Emad Elwany, Allison Hegel, Marina Shah, Brendan Roof, Genevieve
Peaslee and Quentin Rivet
- Abstract要約: 我々は、長文(長さ10~200ページ)のPDF文書に適した、弱い監督ベースのシステムを構築します。
限られた時間、労働力、訓練データのある状況において、教師付き学習を弱くする効果を実証する。
- 参考スコア(独自算出の注目度): 0.4708485483712449
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weak supervision has been applied to various Natural Language Understanding
tasks in recent years. Due to technical challenges with scaling weak
supervision to work on long-form documents, spanning up to hundreds of pages,
applications in the document understanding space have been limited. At Lexion,
we built a weak supervision-based system tailored for long-form (10-200 pages
long) PDF documents. We use this platform for building dozens of language
understanding models and have applied it successfully to various domains, from
commercial agreements to corporate formation documents.
In this paper, we demonstrate the effectiveness of supervised learning with
weak supervision in a situation with limited time, workforce, and training
data. We built 8 high quality machine learning models in the span of one week,
with the help of a small team of just 3 annotators working with a dataset of
under 300 documents. We share some details about our overall architecture, how
we utilize weak supervision, and what results we are able to achieve. We also
include the dataset for researchers who would like to experiment with alternate
approaches or refine ours.
Furthermore, we shed some light on the additional complexities that arise
when working with poorly scanned long-form documents in PDF format, and some of
the techniques that help us achieve state-of-the-art performance on such data.
- Abstract(参考訳): 近年,様々な自然言語理解タスクに弱監視が適用されている。
長い形式のドキュメントを扱うために、弱い監督をスケールする技術的な課題が数百ページに及ぶため、ドキュメント理解領域のアプリケーションは限られている。
Lexionでは、長文(長さ10~200ページ)のPDFドキュメントに適した、弱い監視ベースのシステムを構築しました。
私たちはこのプラットフォームを数十の言語理解モデルの構築に使用し、商業契約から企業形成文書に至るまで、さまざまなドメインにうまく適用しました。
本稿では,時間,労働力,訓練データに制限のある状況において,弱い監督を伴う教師付き学習の有効性を示す。
私たちは、1週間以内に8つの高品質な機械学習モデルを構築しました。
アーキテクチャ全体、弱い監視の活用方法、達成可能な成果について、いくつかの詳細を共有しています。
また、別のアプローチで実験したり、私たちの研究を洗練させたい研究者のためのデータセットも含んでいます。
さらに、pdfフォーマットでスキャンされていないロングフォーム文書を扱う際に生じる複雑さや、そのデータで最先端のパフォーマンスを達成するのに役立ついくつかのテクニックについても触れた。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - LongFin: A Multimodal Document Understanding Model for Long Financial
Domain Documents [4.924255992661131]
最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。
また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
論文 参考訳(メタデータ) (2024-01-26T18:23:45Z) - Cheap Learning: Maximising Performance of Language Models for Social
Data Science Using Minimal Data [1.8692054990918079]
近年発展してきた3つの安価な技術について概観する。
後者では、大規模言語モデルのゼロショットプロンプトの特定の事例について概観する。
我々は,すべての技術に対して優れた性能を示し,特に大規模言語モデルのプロンプトが,非常に低コストで高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-22T19:00:11Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Understanding Long Documents with Different Position-Aware Attentions [18.656621611419716]
本稿では、1Dと新しい2D位置認識の注意を本質的に短縮した文脈で扱うための異なるアプローチについて検討する。
提案手法は,様々な評価指標に基づいて提案手法の利点を生かしている。
我々のモデルは、注意のみに変化をもたらし、任意のトランスフォーマーベースのアーキテクチャに容易に適応できる。
論文 参考訳(メタデータ) (2022-08-17T10:13:15Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。