論文の概要: Anonymization of Documents for Law Enforcement with Machine Learning
- arxiv url: http://arxiv.org/abs/2501.07334v1
- Date: Mon, 13 Jan 2025 13:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:12.529751
- Title: Anonymization of Documents for Law Enforcement with Machine Learning
- Title(参考訳): 機械学習による法令施行文書の匿名化
- Authors: Manuel Eberhardinger, Patrick Takenaka, Daniel Grießhaber, Johannes Maucher,
- Abstract要約: 本稿では,スキャンした文書の画像を自動的に匿名化するシステムを提案する。
匿名化後のさらなる法医学的処理の可能性を検討する。
提案手法は、純粋に自動的なリアクションシステムと、参照匿名化の簡易なコピー・ペースト方式の両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 1.237454174824584
- License:
- Abstract: The steadily increasing utilization of data-driven methods and approaches in areas that handle sensitive personal information such as in law enforcement mandates an ever increasing effort in these institutions to comply with data protection guidelines. In this work, we present a system for automatically anonymizing images of scanned documents, reducing manual effort while ensuring data protection compliance. Our method considers the viability of further forensic processing after anonymization by minimizing automatically redacted areas by combining automatic detection of sensitive regions with knowledge from a manually anonymized reference document. Using a self-supervised image model for instance retrieval of the reference document, our approach requires only one anonymized example to efficiently redact all documents of the same type, significantly reducing processing time. We show that our approach outperforms both a purely automatic redaction system and also a naive copy-paste scheme of the reference anonymization to other documents on a hand-crafted dataset of ground truth redactions.
- Abstract(参考訳): 法執行機関のような機密性の高い個人情報を扱う分野におけるデータ駆動手法やアプローチの利用が着実に増加し、これらの機関はデータ保護ガイドラインに従わなければならない。
本研究では,スキャンした文書の画像を自動的に匿名化するシステムを提案する。
本手法は,手動で匿名化された参照文書から,機密領域の自動検出と知識を組み合わせることで,自動再実行領域を最小化することにより,匿名化後のさらなる法医学的処理の実現可能性を検討する。
提案手法では,参照文書の検索に自己教師付き画像モデルを用いることで,同一タイプの文書を効率よく再フォーマットする匿名化例を1つだけ必要とし,処理時間を著しく短縮する。
提案手法は,手作りの真理再作用データセット上で,純粋に自動的リアクションシステムと参照匿名化の簡易なコピー・ペースト方式の両方に優れることを示す。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Automatic Anonymization of Swiss Federal Supreme Court Rulings [2.1963472367016426]
匿名化対象のエンティティを付加した大規模なデータセットを用いて,既存の匿名化ソフトウェアを強化する。
その結果,ドメイン内データを用いて事前トレーニングを行うことで,既存モデルに比べてF1スコアが5%以上向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T00:56:49Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - A False Sense of Privacy: Towards a Reliable Evaluation Methodology for the Anonymization of Biometric Data [8.799600976940678]
生体データは、顔の特徴や歩行パターンのような特徴的な人間の特徴を含んでいる。
プライバシー保護は、匿名化の技法によって広範囲に提供される。
我々は、匿名化の性能を評価するために使用される最先端の手法を評価する。
論文 参考訳(メタデータ) (2023-04-04T08:46:14Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。