論文の概要: Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning
- arxiv url: http://arxiv.org/abs/2003.10063v4
- Date: Wed, 29 Apr 2020 00:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:58:14.513621
- Title: Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning
- Title(参考訳): 自己教師付き深部非対称メトリック学習による縮小テキスト文書の高速(er)再構成
- Authors: Thiago M. Paix\~ao, Rodrigo F. Berriel, Maria C. S. Boeres, Alessando
L. Koerich, Claudine Badue, Alberto F. De Souza and Thiago Oliveira-Santos
- Abstract要約: 細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
- 参考スコア(独自算出の注目度): 62.34197797857823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reconstruction of shredded documents consists in arranging the pieces of
paper (shreds) in order to reassemble the original aspect of such documents.
This task is particularly relevant for supporting forensic investigation as
documents may contain criminal evidence. As an alternative to the laborious and
time-consuming manual process, several researchers have been investigating ways
to perform automatic digital reconstruction. A central problem in automatic
reconstruction of shredded documents is the pairwise compatibility evaluation
of the shreds, notably for binary text documents. In this context, deep
learning has enabled great progress for accurate reconstructions in the domain
of mechanically-shredded documents. A sensitive issue, however, is that current
deep model solutions require an inference whenever a pair of shreds has to be
evaluated. This work proposes a scalable deep learning approach for measuring
pairwise compatibility in which the number of inferences scales linearly
(rather than quadratically) with the number of shreds. Instead of predicting
compatibility directly, deep models are leveraged to asymmetrically project the
raw shred content onto a common metric space in which distance is proportional
to the compatibility. Experimental results show that our method has accuracy
comparable to the state-of-the-art with a speed-up of about 22 times for a test
instance with 505 shreds (20 mixed shredded-pages from different documents).
- Abstract(参考訳): 細断文書の復元は、これらの文書の本来の側面を再構築するために、紙(細断)を整理することである。
この任務は法医学的な捜査を支援するために特に重要であり、文書には刑事証拠が含まれている可能性がある。
手間と時間のかかる手作業の代替として、数人の研究者が自動デジタル再構築の方法を調査している。
細断文書の自動復元における中心的な問題は、細断文書の相互互換性の評価である。
この文脈において、深層学習は機械処理文書の領域における正確な再構築に大きく進歩した。
しかし、センシティブな問題は、現在の深層モデルソリューションでは、一対のシュレッズを評価する必要がある場合、推論が必要になることだ。
本研究は,2次ではなく2次ではなく2次に線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
互換性を直接予測する代わりに、深層モデルは、距離が互換性に比例する共通の計量空間に生のシュレッジコンテンツを非対称に投影するために利用される。
実験結果から,本手法は505シュレッズ(異なる文書から20の混合シュレッダーページ)のテストインスタンスにおいて,22倍のスピードアップで最先端技術に匹敵する精度を示した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Innovative Methods for Non-Destructive Inspection of Handwritten
Documents [0.0]
本稿では,画像処理と深層学習技術を用いて,本文の本質的な尺度を抽出・解析できるフレームワークを提案する。
比較対象文書の特徴ベクトル間のユークリッド距離を定量化することにより、著者を特定することができる。
実験により,異なる執筆媒体の著者を客観的に決定できる手法が得られた。
論文 参考訳(メタデータ) (2023-10-17T12:45:04Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。