論文の概要: Applications of Machine Learning in Document Digitisation
- arxiv url: http://arxiv.org/abs/2102.03239v1
- Date: Fri, 5 Feb 2021 15:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:46:58.940407
- Title: Applications of Machine Learning in Document Digitisation
- Title(参考訳): 文書デジタル化における機械学習の応用
- Authors: Christian M. Dahl, Torben S. D. Johansen, Emil N. S{\o}rensen,
Christian E. Westermann and Simon F. Wittrock
- Abstract要約: 我々は、デジタル化プロセスを自動化するため、現代の機械学習技術の使用を提唱する。
本稿では,2つの図解アプリケーションによるデータ収集に機械デジタル化を適用する可能性について概説する。
第1に、看護師ジャーナルの生スキャンに適用された教師なしレイアウト分類を用いて、治療指標を構築することができることを示した。
第2のアプリケーションは、注意に基づくニューラルネットワークを使用して手書きのテキスト認識を使用して、デンマークの多数の死亡証明書から年齢と出生と死亡を転写する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data acquisition forms the primary step in all empirical research. The
availability of data directly impacts the quality and extent of conclusions and
insights. In particular, larger and more detailed datasets provide convincing
answers even to complex research questions. The main problem is that 'large and
detailed' usually implies 'costly and difficult', especially when the data
medium is paper and books. Human operators and manual transcription have been
the traditional approach for collecting historical data. We instead advocate
the use of modern machine learning techniques to automate the digitisation
process. We give an overview of the potential for applying machine digitisation
for data collection through two illustrative applications. The first
demonstrates that unsupervised layout classification applied to raw scans of
nurse journals can be used to construct a treatment indicator. Moreover, it
allows an assessment of assignment compliance. The second application uses
attention-based neural networks for handwritten text recognition in order to
transcribe age and birth and death dates from a large collection of Danish
death certificates. We describe each step in the digitisation pipeline and
provide implementation insights.
- Abstract(参考訳): データ取得は、すべての実証研究の主要なステップを形成します。
データの可用性は、結論と洞察の質と範囲に直接影響します。
特に、より大きくより詳細なデータセットは、複雑な研究質問に対してさえ説得力のある答えを提供する。
主な問題は、特にデータ媒体が紙や本である場合、「大きくて詳細」が「高価で難しい」ことを意味することである。
人間の演算子と手動転写は、歴史的データを収集するための伝統的なアプローチでした。
私たちは代わりに、デジタル化プロセスの自動化に現代の機械学習技術を使うことを提唱します。
2つの図示アプリケーションを通じて、データ収集に機械のデジタル化を適用する可能性を概観します。
まず,ナースジャーナルの生スキャンに適用した教師なしレイアウト分類を治療指標の構築に利用できることを示す。
さらに、割り当てコンプライアンスの評価を可能にする。
第2のアプリケーションは、手書きのテキスト認識に注意に基づくニューラルネットワークを使用して、デンマークの死亡証明書の膨大なコレクションから年齢と出生年月日を書写する。
デジタル化パイプラインの各ステップを説明し、実装の洞察を提供します。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Toward Educator-focused Automated Scoring Systems for Reading and
Writing [0.0]
本稿では,データとラベルの可用性,信頼性と拡張性,ドメインスコアリング,プロンプトとソースの多様性,伝達学習といった課題に対処する。
モデルトレーニングコストを増大させることなく、エッセイの長さを重要な特徴として保持する技術を採用している。
論文 参考訳(メタデータ) (2021-12-22T15:44:30Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Small data problems in political research: a critical replication study [5.698280399449707]
このデータから, ランダムな列車-テスト分割のばらつきに対して, 分類モデルに非常に敏感な結果が得られた。
また、適用された前処理により、データが極めてスパースであることも示している。
以上の結果から,組織評価ツイートの自動分類に関するA&Wの結論は維持できないと論じる。
論文 参考訳(メタデータ) (2021-09-27T09:55:58Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。