論文の概要: Subject-level Inference for Realistic Text Anonymization Evaluation
- arxiv url: http://arxiv.org/abs/2604.21211v1
- Date: Thu, 23 Apr 2026 02:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.243524
- Title: Subject-level Inference for Realistic Text Anonymization Evaluation
- Title(参考訳): 実写テキスト匿名化評価のための主観レベルの推論
- Authors: Myeong Seok Oh, Dong-Yun Kim, Hanseok Oh, Chaean Kang, Joeun Kang, Xiaonan Wang, Hyunjung Park, Young Cheol Jung, Hansaem Kim,
- Abstract要約: 評価単位をテキストスパンから個人にシフトさせる最初のベンチマークであるSPIA(Subject-level PII Inference Assessment)を提案する。
実世界の環境において,安全なテキスト匿名化を実現するためには,主観レベルの推論に基づく評価が不可欠であることを示す。
- 参考スコア(独自算出の注目度): 4.590059365968739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text anonymization evaluation relies on span-based metrics that fail to capture what an adversary could actually infer, and assumes a single data subject, ignoring multi-subject scenarios. To address these limitations, we present SPIA (Subject-level PII Inference Assessment), the first benchmark that shifts the unit of evaluation from text spans to individuals, comprising 675 documents across legal and online domains with novel subject-level protection metrics. Extensive experiments show that even when over 90% of PII spans are masked, subject-level inference protection drops as low as 33%, leaving the majority of personal information recoverable through contextual inference. Furthermore, target-subject-focused anonymization leaves non-target subjects substantially more exposed than the target subject. We show that subject-level inference-based evaluation is essential for ensuring safe text anonymization in real-world settings.
- Abstract(参考訳): 現在のテキスト匿名化評価は、相手が実際に推測できることをキャプチャできないスパンベースのメトリクスに依存し、複数のオブジェクトシナリオを無視して単一のデータ対象を仮定する。
これらの制約に対処するため、SPIA (Subject-level PII Inference Assessment) は、新しい主題レベルの保護指標を持つ法律およびオンラインドメインにまたがる675の文書からなる、テキストスパンから個人への評価単位をシフトする最初のベンチマークである。
大規模な実験では、PIIスパンの90%以上がマスクされている場合でも、被験者レベルの推論保護は33%にまで低下し、ほとんどの個人情報は文脈的推論によって回復可能であることが示されている。
さらに,対象対象物に焦点をあてた匿名化では,対象物よりも対象物以外の被写体がかなり露出している。
実世界の環境において,安全なテキスト匿名化を実現するためには,主観レベルの推論に基づく評価が不可欠であることを示す。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - Towards Privacy-Preserving Machine Translation at the Inference Stage: A New Task and Benchmark [52.063283137654196]
現在のオンライン翻訳サービスでは、ユーザテキストをクラウドサーバーに送信する必要がある。
本稿では,モデル推論段階におけるテキスト中のプライベート情報を保護することを目的とした,PPMT(Privacy-Preserving Machine Translation)タスクを提案する。
論文 参考訳(メタデータ) (2026-03-16T02:41:06Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Large Language Models are Advanced Anonymizers [2.9373912230684565]
大規模言語モデル(LLM)に関する最近のプライバシー調査では、オンラインテキストから個人データを推測することで、ほぼ人間レベルのパフォーマンスを達成することが示されている。
既存のテキスト匿名化手法は現在、規制要件や敵の脅威に欠けています。
逆LLM推論の面における匿名性を評価するための新しい設定法を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - The Limits of Word Level Differential Privacy [30.34805746574316]
そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-02T21:53:10Z) - The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization [2.9849405664643585]
本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークと関連する評価指標を提案する。
テキスト匿名化は、個人情報の開示を防ぐためにテキスト文書を編集するタスクとして定義されており、現在、プライバシー指向の注釈付きテキストリソースが不足している。
本稿では,TAB (Text Anonymization Benchmark) について述べる。
論文 参考訳(メタデータ) (2022-01-25T14:34:42Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。