論文の概要: DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering
- arxiv url: http://arxiv.org/abs/2404.00439v1
- Date: Sat, 30 Mar 2024 18:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:49:50.838136
- Title: DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering
- Title(参考訳): DOCMASTER: 文書質問応答におけるアノテーション・トレーニング・推論の統合プラットフォーム
- Authors: Alex Nguyen, Zilong Wang, Jingbo Shang, Dheeraj Mekala,
- Abstract要約: 本稿では,PDF文書の注釈付け,モデルトレーニング,推論のための統一プラットフォームを提案する。
アノテーションインターフェースにより、ユーザは質問を入力し、PDFファイル内のテキストスパンを回答としてハイライトし、レイアウト情報とテキストスパンを保存できる。
このプラットフォームは、カリフォルニア大学サンディエゴ校(UCSD)国際サービス・エンゲージメントオフィス(ISEO)が相当量のPDF文書を処理するために使用しているAIアシスタントなど、文書分析に関するいくつかの研究プロトタイプの推進に役立っている。
- 参考スコア(独自算出の注目度): 36.40110520952274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of natural language processing models to PDF documents is pivotal for various business applications yet the challenge of training models for this purpose persists in businesses due to specific hurdles. These include the complexity of working with PDF formats that necessitate parsing text and layout information for curating training data and the lack of privacy-preserving annotation tools. This paper introduces DOCMASTER, a unified platform designed for annotating PDF documents, model training, and inference, tailored to document question-answering. The annotation interface enables users to input questions and highlight text spans within the PDF file as answers, saving layout information and text spans accordingly. Furthermore, DOCMASTER supports both state-of-the-art layout-aware and text models for comprehensive training purposes. Importantly, as annotations, training, and inference occur on-device, it also safeguards privacy. The platform has been instrumental in driving several research prototypes concerning document analysis such as the AI assistant utilized by University of California San Diego's (UCSD) International Services and Engagement Office (ISEO) for processing a substantial volume of PDF documents.
- Abstract(参考訳): 自然言語処理モデルをPDF文書に適用することは、様々なビジネスアプリケーションにとって重要なことですが、この目的のためのトレーニングモデルの課題は、特定のハードルのためにビジネスで持続しています。
これには、トレーニングデータのキュレーションにテキストとレイアウト情報を解析する必要のあるPDFフォーマットを扱う複雑さや、プライバシ保護アノテーションツールの欠如が含まれている。
本稿では,PDF文書の注釈付け,モデルトレーニング,推論のための統一プラットフォームであるDOCMASTERについて紹介する。
アノテーションインターフェースにより、ユーザは質問を入力し、PDFファイル内のテキストスパンを回答としてハイライトし、レイアウト情報とテキストスパンを保存できる。
さらに、DOCMASTERは、最先端のレイアウト・アウェアとテキストモデルの両方をサポートし、総合的なトレーニングを目的としている。
重要なのは、アノテーション、トレーニング、推論がデバイス上で発生するため、プライバシも保護されることだ。
このプラットフォームは、カリフォルニア大学サンディエゴ校(UCSD)国際サービス・エンゲージメントオフィス(ISEO)が相当量のPDF文書を処理するために使用しているAIアシスタントなど、文書分析に関するいくつかの研究プロトタイプの推進に役立っている。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Federated Document Visual Question Answering: A Pilot Study [11.157766332838877]
文書は著作権や私的な情報を含む傾向があり、公開を禁止している。
本研究では,分散化されたプライベートドキュメントデータに基づく共有モデルの学習方法として,フェデレーション付き学習スキームの利用について検討する。
我々は,さまざまなDocVQAデータセットを用いたフェデレーショントレーニングにおいて,事前学習戦略が効果的に学習し,スケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2024-05-10T17:53:05Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - PAWLS: PDF Annotation With Labels and Structure [4.984601297028257]
PDF文書フォーマットのための新しいアノテーションツールであるラベルと構造(PAWLS)付きPDFを提示します。
PAWLSはスパンベースのテキストアノテーション、N-aryリレーション、Freeform、非テキストバウンディングボックスをサポートしている。
読み取り専用PAWLSサーバはhttps://pawls.apps.allenai.org/で入手できる。
論文 参考訳(メタデータ) (2021-01-25T18:02:43Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。