論文の概要: Re-identification of De-identified Documents with Autoregressive Infilling
- arxiv url: http://arxiv.org/abs/2505.12859v1
- Date: Mon, 19 May 2025 08:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.492888
- Title: Re-identification of De-identified Documents with Autoregressive Infilling
- Title(参考訳): 自己回帰記入による未確認文書の再同定
- Authors: Lucas Georges Gabriel Charpentier, Pierre Lison,
- Abstract要約: 本稿では、背景知識を表す文書のデータベースに基づいて、再識別の逆過程を試み、RAGにインスパイアされた新しい手法を提案する。
特定されていないテキストの80%を回復し、背景知識のレベルとともに再識別精度が向上する。
- 参考スコア(独自算出の注目度): 2.2406151150434894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Documents revealing sensitive information about individuals must typically be de-identified. This de-identification is often done by masking all mentions of personally identifiable information (PII), thereby making it more difficult to uncover the identity of the person(s) in question. To investigate the robustness of de-identification methods, we present a novel, RAG-inspired approach that attempts the reverse process of re-identification based on a database of documents representing background knowledge. Given a text in which personal identifiers have been masked, the re-identification proceeds in two steps. A retriever first selects from the background knowledge passages deemed relevant for the re-identification. Those passages are then provided to an infilling model which seeks to infer the original content of each text span. This process is repeated until all masked spans are replaced. We evaluate the re-identification on three datasets (Wikipedia biographies, court rulings and clinical notes). Results show that (1) as many as 80% of de-identified text spans can be successfully recovered and (2) the re-identification accuracy increases along with the level of background knowledge.
- Abstract(参考訳): 個人に関する機密情報を明らかにする文書は通常、特定されなければならない。
この識別は、個人識別可能な情報のすべての言及(PII)を隠蔽することで行われることが多く、それによって、被疑者の同一性を明らかにすることがより困難になる。
そこで本研究では,背景知識を表わす文書データベースに基づく再識別の逆プロセスを試行する,RAGにインスパイアされた新しい手法を提案する。
個人識別子が隠されたテキストが与えられた場合、再識別は2つのステップで進む。
検索者は、まず、再識別に関連すると考えられる背景知識通路から選択する。
これらの文は、各テキストのオリジナル内容を推測するインフィルモデルに提供される。
この処理は、すべてのマスクスパンが交換されるまで繰り返される。
本研究は,3つのデータセット(ウィキペディア・バイオグラフィー,裁判所判決,臨床ノート)について再同定を行った。
その結果,(1)未同定テキストの80%は回復可能であり,(2)再同定精度は背景知識のレベルとともに向上することがわかった。
関連論文リスト
- Keypoint Promptable Re-Identification [76.31113049256375]
Occluded Person Re-Identification (ReID) は、その外見に基づいて隠蔽された個人をマッチングするメトリクス学習タスクである。
本稿では、入力バウンディングボックスを意味キーポイントの集合で明示的に補完する新しいReID問題の定式化であるKeypoint Promptable ReID(KPR)を紹介する。
我々は4つの人気のあるReIDベンチマークのためのカスタムキーポイントラベルをリリースした。人物検索の実験だけでなく、ポーズトラッキングの実験も、我々の手法が従来の最先端手法を体系的に超越していることを示す。
論文 参考訳(メタデータ) (2024-07-25T15:20:58Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification [55.741525129613535]
匿名化前の混乱」は、新しい二段階フレームワーク(DBAF)である
このフレームワークには、Contrastive Identity Disentanglement (CID)モジュールとKey-authorized Reversible Identity Anonymization (KRIA)モジュールが含まれている。
大規模な実験により,本手法は最先端の非識別手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis [2.9311414545087366]
テキスト・サニタイズのための2段階のアプローチを検討し、その経験的性能を詳細に分析する。
テキストサニタイズプロセスは、プライバシー指向のエンティティ認識器から始まり、識別可能な個人情報を表すテキストを識別する。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,Web検索に基づく再識別リスクの指標を5つ提示する。
論文 参考訳(メタデータ) (2023-10-22T14:17:27Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Towards Privacy-Preserving Person Re-identification via Person Identify
Shift [19.212691296927165]
人物再識別(ReID)は、ReID法で使用される歩行者画像のプライバシーを維持する必要がある。
本稿では、人物識別シフト(PIS)と呼ばれる、人物ReID用に明示的に設計された新しい非識別手法を提案する。
PISは、それぞれの歩行者画像を現在の身元から別の身元にシフトさせ、その結果、相対的な身元を保存している。
論文 参考訳(メタデータ) (2022-07-15T06:58:41Z) - Fairness for Text Classification Tasks with Identity Information Data
Augmentation Methods [2.5199066832791535]
メソッドは、与えられたトレーニングとテストセットインスタンスのカウンターファクトを生成することに基づいています。
2段階の強化プロセスが多様なアイデンティティペアと強化されたトレーニングセットにつながることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-04T07:08:30Z) - Taking Modality-free Human Identification as Zero-shot Learning [46.51413603352702]
我々は、新しいモダリティフリーヒューマン識別(MFHI)タスクを、スケーラブルな方法で汎用的なゼロショット学習モデルとして開発する。
各アイデンティティの識別プロトタイプを学習することで、視覚的および意味的なモダリティをブリッジすることができる。
さらに、意味論に基づく空間的注意は、高グローバルなカテゴリーレベルと局所的な属性レベルを区別した表現を得るために、視覚的モダリティに強制される。
論文 参考訳(メタデータ) (2020-10-02T13:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。