論文の概要: A Novel Dataset for Non-Destructive Inspection of Handwritten Documents
- arxiv url: http://arxiv.org/abs/2401.04448v1
- Date: Tue, 9 Jan 2024 09:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:07:18.273576
- Title: A Novel Dataset for Non-Destructive Inspection of Handwritten Documents
- Title(参考訳): 手書き文書の非破壊検査のための新しいデータセット
- Authors: Eleonora Breci (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1)
University of Catania)
- Abstract要約: 法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forensic handwriting examination is a branch of Forensic Science that aims to
examine handwritten documents in order to properly define or hypothesize the
manuscript's author. These analysis involves comparing two or more (digitized)
documents through a comprehensive comparison of intrinsic local and global
features. If a correlation exists and specific best practices are satisfied,
then it will be possible to affirm that the documents under analysis were
written by the same individual. The need to create sophisticated tools capable
of extracting and comparing significant features has led to the development of
cutting-edge software with almost entirely automated processes, improving the
forensic examination of handwriting and achieving increasingly objective
evaluations. This is made possible by algorithmic solutions based on purely
mathematical concepts. Machine Learning and Deep Learning models trained with
specific datasets could turn out to be the key elements to best solve the task
at hand. In this paper, we proposed a new and challenging dataset consisting of
two subsets: the first consists of 21 documents written either by the classic
``pen and paper" approach (and later digitized) and directly acquired on common
devices such as tablets; the second consists of 362 handwritten manuscripts by
124 different people, acquired following a specific pipeline. Our study
pioneered a comparison between traditionally handwritten documents and those
produced with digital tools (e.g., tablets). Preliminary results on the
proposed datasets show that 90% classification accuracy can be achieved on the
first subset (documents written on both paper and pen and later digitized and
on tablets) and 96% on the second portion of the data. The datasets are
available at
https://iplab.dmi.unict.it/mfs/forensic-handwriting-analysis/novel-dataset-2023/.
- Abstract(参考訳): 法医学的手書き検査は、写本の著者を適切に定義または仮説化するために手書きの文書を検査することを目的とした法医学の分野である。
これらの分析は、2つ以上の(デジタル化された)文書を比較し、固有の局所的特徴とグローバルな特徴を包括的に比較する。
相関関係が存在し、特定のベストプラクティスが満たされれば、分析対象の文書が同一個人によって書かれたと確認することができる。
重要な特徴を抽出し比較できる高度なツールを作成する必要性は、ほぼ完全に自動化されたプロセスによる最先端ソフトウェアの開発につながり、手書きの法医学的検査を改善し、ますます客観的な評価を達成している。
これは純粋に数学的概念に基づくアルゴリズム解によって可能となる。
特定のデータセットでトレーニングされた機械学習とディープラーニングモデルは、そのタスクを最適に解決するための重要な要素であることが判明した。
本稿では,従来の「ペンと紙」アプローチ(後にデジタル化)で記述された21の文書と,タブレットなどの共通装置で直接取得された文書と,特定のパイプラインに従って取得された124人の異なる人物による362の手書き写本からなる,2つのサブセットからなる,新たな挑戦的なデータセットを提案する。
従来の手書き文書とデジタルツール(タブレットなど)による文書の比較を行った。
提案するデータセットの予備結果は,第1サブセット(紙,ペン,後のデジタル化およびタブレット)では90%の分類精度を達成でき,第2部分では96%の精度が得られた。
データセットはhttps://iplab.dmi.unict.it/mfs/forensic-handwriting- analysis/novel-dataset-2023/で利用可能である。
関連論文リスト
- Innovative Methods for Non-Destructive Inspection of Handwritten
Documents [0.0]
本稿では,画像処理と深層学習技術を用いて,本文の本質的な尺度を抽出・解析できるフレームワークを提案する。
比較対象文書の特徴ベクトル間のユークリッド距離を定量化することにより、著者を特定することができる。
実験により,異なる執筆媒体の著者を客観的に決定できる手法が得られた。
論文 参考訳(メタデータ) (2023-10-17T12:45:04Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。