論文の概要: Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis
- arxiv url: http://arxiv.org/abs/2310.14312v1
- Date: Sun, 22 Oct 2023 14:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:29:39.103610
- Title: Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis
- Title(参考訳): プライバシーリスク指標を用いたニューラルテキストの衛生 : 実証分析
- Authors: Anthi Papadopoulou, Pierre Lison, Mark Anderson, Lilja {\O}vrelid,
Ildik\'o Pil\'an
- Abstract要約: テキスト・サニタイズのための2段階のアプローチを検討し、その経験的性能を詳細に分析する。
テキストサニタイズプロセスは、プライバシー指向のエンティティ認識器から始まり、識別可能な個人情報を表すテキストを識別する。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,Web検索に基づく再識別リスクの指標を5つ提示する。
- 参考スコア(独自算出の注目度): 2.9311414545087366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text sanitization is the task of redacting a document to mask all occurrences
of (direct or indirect) personal identifiers, with the goal of concealing the
identity of the individual(s) referred in it. In this paper, we consider a
two-step approach to text sanitization and provide a detailed analysis of its
empirical performance on two recently published datasets: the Text
Anonymization Benchmark (Pil\'an et al., 2022) and a collection of Wikipedia
biographies (Papadopoulou et al., 2022). The text sanitization process starts
with a privacy-oriented entity recognizer that seeks to determine the text
spans expressing identifiable personal information. This privacy-oriented
entity recognizer is trained by combining a standard named entity recognition
model with a gazetteer populated by person-related terms extracted from
Wikidata. The second step of the text sanitization process consists in
assessing the privacy risk associated with each detected text span, either
isolated or in combination with other text spans. We present five distinct
indicators of the re-identification risk, respectively based on language model
probabilities, text span classification, sequence labelling, perturbations, and
web search. We provide a contrastive analysis of each privacy indicator and
highlight their benefits and limitations, notably in relation to the available
labeled data.
- Abstract(参考訳): テキスト・サニタイズ(英: text sanitization)とは、文書を改ざんして個人識別子(直接的または間接的)のすべての発生を隠蔽し、その中に言及される個人のアイデンティティを隠すこと。
本稿では,最近発表された2つのデータセット (text anonymization benchmark (pil\'an et al., 2022) とwikipediaの伝記集 (papadopoulou et al., 2022) について,テキストのサニタイズに対する2段階のアプローチを検討し,その経験的パフォーマンスの詳細な分析を行う。
テキストのサニタイズプロセスは、識別可能な個人情報を表現するテキストスパンを決定するプライバシ指向のエンティティ認識器から始まります。
このプライバシ指向エンティティ認識器は、wikidataから抽出された人物関連用語を人口するガゼットと、標準名称のエンティティ認識モデルとを組み合わせることで訓練される。
テキストサニタイズプロセスの第2ステップは、検出された各テキストスパンに関連するプライバシーリスクを、分離または他のテキストスパンと組み合わせて評価することである。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,web検索に基づいて,再同定リスクの5つの指標を示す。
我々は、各プライバシー指標の対比分析を行い、その利点と限界、特に利用可能なラベル付きデータとの関連を強調する。
関連論文リスト
- IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization [2.9849405664643585]
本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークと関連する評価指標を提案する。
テキスト匿名化は、個人情報の開示を防ぐためにテキスト文書を編集するタスクとして定義されており、現在、プライバシー指向の注釈付きテキストリソースが不足している。
本稿では,TAB (Text Anonymization Benchmark) について述べる。
論文 参考訳(メタデータ) (2022-01-25T14:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。