論文の概要: Word-Level Alignment of Paper Documents with their Electronic Full-Text
Counterparts
- arxiv url: http://arxiv.org/abs/2104.14925v1
- Date: Fri, 30 Apr 2021 11:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:02:00.215956
- Title: Word-Level Alignment of Paper Documents with their Electronic Full-Text
Counterparts
- Title(参考訳): 電子版全文カウンタによる文書の単語レベルアライメント
- Authors: Mark-Christoph M\"uller, Sucheta Ghosh, Ulrike Wittig, and Maja Rey
- Abstract要約: 本稿では,印刷文書とその全文バージョン間の単語レベルのアライメントを自動生成するための簡単な手順について述べる。
この手順は監視されず、標準の既製のコンポーネントのみを使用し、基本セットアップではFスコア85.01に達し、前処理および後処理では86.63に達する。
- 参考スコア(独自算出の注目度): 0.8137198664755598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a simple procedure for the automatic creation of word-level
alignments between printed documents and their respective full-text versions.
The procedure is unsupervised, uses standard, off-the-shelf components only,
and reaches an F-score of 85.01 in the basic setup and up to 86.63 when using
pre- and post-processing. Potential areas of application are manual database
curation (incl. document triage) and biomedical expression OCR.
- Abstract(参考訳): 本稿では,印刷文書とその全文バージョン間の単語レベルのアライメントを自動生成するための簡単な手順について述べる。
手順は教師なしで、標準のオフザシェルフコンポーネントのみを使用し、基本設定では85.01、前処理と後処理では86.63に達する。
アプリケーションの潜在的な領域は、手動データベースキュレーション(incl)である。
文書トリアージ)および生医学的表現OCR。
関連論文リスト
- Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - Information Extraction from Scanned Invoice Images using Text Analysis
and Layout Features [0.0]
OCRMinerは、人間が使用するのと同様の方法で文書を処理するように設計されている。
このシステムは、英語で90%、チェコ語で88%の請求データを復元することができる。
論文 参考訳(メタデータ) (2022-08-08T09:46:33Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Automatic Page Segmentation Without Decompressing the Run-Length
Compressed Text Documents [1.2487990897680425]
ページセグメンテーションは複雑なレイアウトを持つ文書の自動解析において重要な段階であると考えられている。
本稿では,CCITT Group-3圧縮文書の実行長データに直接ページ分割操作を行う可能性を示す。
テキスト文書の前処理は、通常テキスト領域と反転テキスト領域を識別し、反転テキスト領域を通常モードに切り替える。
論文 参考訳(メタデータ) (2020-07-02T14:29:35Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。