論文の概要: PAWLS: PDF Annotation With Labels and Structure
- arxiv url: http://arxiv.org/abs/2101.10281v1
- Date: Mon, 25 Jan 2021 18:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 00:19:56.635603
- Title: PAWLS: PDF Annotation With Labels and Structure
- Title(参考訳): PAWLS: ラベルと構造を持つPDFアノテーション
- Authors: Mark Neumann, Zejiang Shen, Sam Skjonsberg
- Abstract要約: PDF文書フォーマットのための新しいアノテーションツールであるラベルと構造(PAWLS)付きPDFを提示します。
PAWLSはスパンベースのテキストアノテーション、N-aryリレーション、Freeform、非テキストバウンディングボックスをサポートしている。
読み取り専用PAWLSサーバはhttps://pawls.apps.allenai.org/で入手できる。
- 参考スコア(独自算出の注目度): 4.984601297028257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adobe's Portable Document Format (PDF) is a popular way of distributing
view-only documents with a rich visual markup. This presents a challenge to NLP
practitioners who wish to use the information contained within PDF documents
for training models or data analysis, because annotating these documents is
difficult. In this paper, we present PDF Annotation with Labels and Structure
(PAWLS), a new annotation tool designed specifically for the PDF document
format. PAWLS is particularly suited for mixed-mode annotation and scenarios in
which annotators require extended context to annotate accurately. PAWLS
supports span-based textual annotation, N-ary relations and freeform,
non-textual bounding boxes, all of which can be exported in convenient formats
for training multi-modal machine learning models. A read-only PAWLS server is
available at https://pawls.apps.allenai.org/ and the source code is available
at https://github.com/allenai/pawls.
- Abstract(参考訳): Adobe の Portable Document Format (PDF) はビューのみのドキュメントをリッチなビジュアルマークアップで配布する方法として人気がある。
これは、これらの文書の注釈付けが困難であるため、PDF文書に含まれる情報をトレーニングモデルやデータ分析に使用したいNLP実践者に課題を提示します。
本稿では,PDF文書フォーマットに特化して設計された新しいアノテーションツールPAWLS(PDF Annotation with Labels and Structure)を提案する。
PAWLSは、アノテータが正確にアノテートするために拡張コンテキストを必要とする混合モードアノテーションやシナリオに特に適している。
PAWLSは、スパンベースのテキストアノテーション、N-aryリレーション、フリーフォーム、非テキストバウンディングボックスをサポートし、これらはすべて、マルチモーダル機械学習モデルをトレーニングするための便利なフォーマットでエクスポートできる。
読み取り専用PAWLSサーバはhttps://pawls.apps.allenai.org/で、ソースコードはhttps://github.com/allenai/pawlsで入手できる。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering [36.40110520952274]
本稿では,PDF文書の注釈付け,モデルトレーニング,推論のための統一プラットフォームを提案する。
アノテーションインターフェースにより、ユーザは質問を入力し、PDFファイル内のテキストスパンを回答としてハイライトし、レイアウト情報とテキストスパンを保存できる。
このプラットフォームは、カリフォルニア大学サンディエゴ校(UCSD)国際サービス・エンゲージメントオフィス(ISEO)が相当量のPDF文書を処理するために使用しているAIアシスタントなど、文書分析に関するいくつかの研究プロトタイプの推進に役立っている。
論文 参考訳(メタデータ) (2024-03-30T18:11:39Z) - appjsonify: An Academic Paper PDF-to-JSON Conversion Toolkit [9.66954231321555]
appifyはPythonベースの学術論文用PDF-to-JSON変換ツールキットである。
複数のビジュアルベースの文書レイアウト分析モデルとルールベースのテキスト処理アプローチを使用してPDFファイルを解析する。
論文 参考訳(メタデータ) (2023-10-02T13:48:16Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - DoSA : A System to Accelerate Annotations on Business Documents with
Human-in-the-Loop [0.0]
DoSA(Document Specific Automated s)は、新しいブートストラップアプローチを使用して、アノテーションを自動生成するアノテータを支援する。
オープンソースの ready-to-use 実装が GitHub で公開されている。
論文 参考訳(メタデータ) (2022-11-09T15:04:07Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - MarkupLM: Pre-training of Text and Markup Language for Visually-rich
Document Understanding [35.35388421383703]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。
本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。
実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T09:17:28Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。