論文の概要: RAT-Bench: A Comprehensive Benchmark for Text Anonymization
- arxiv url: http://arxiv.org/abs/2602.12806v1
- Date: Fri, 13 Feb 2026 10:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.9238
- Title: RAT-Bench: A Comprehensive Benchmark for Text Anonymization
- Title(参考訳): RAT-Bench: テキスト匿名化のための総合ベンチマーク
- Authors: Nataša Krčo, Zexi Yao, Matthieu Meeus, Yves-Alexandre de Montjoye,
- Abstract要約: 我々は、再識別リスクに基づいたテキスト匿名化ツールのベンチマークであるRAT-Benchを紹介する。
ドメイン,言語,難易度にまたがる様々な直接的および間接的識別子を含む合成テキストを生成する。
機能は大きく異なるが、最高のツールでさえ、特にダイレクト識別子が標準的な方法で書かれていない場合、完璧には程遠い。
- 参考スコア(独自算出の注目度): 8.64925947747086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data containing personal information is increasingly used to train, fine-tune, or query Large Language Models (LLMs). Text is typically scrubbed of identifying information prior to use, often with tools such as Microsoft's Presidio or Anthropic's PII purifier. These tools have traditionally been evaluated on their ability to remove specific identifiers (e.g., names), yet their effectiveness at preventing re-identification remains unclear. We introduce RAT-Bench, a comprehensive benchmark for text anonymization tools based on re-identification risk. Using U.S. demographic statistics, we generate synthetic text containing various direct and indirect identifiers across domains, languages, and difficulty levels. We evaluate a range of NER- and LLM-based text anonymization tools and, based on the attributes an LLM-based attacker is able to correctly infer from the anonymized text, we report the risk of re-identification in the U.S. population, while properly accounting for the disparate impact of identifiers. We find that, while capabilities vary widely, even the best tools are far from perfect in particular when direct identifiers are not written in standard ways and when indirect identifiers enable re-identification. Overall we find LLM-based anonymizers, including new iterative anonymizers, to provide a better privacy-utility trade-off albeit at a higher computational cost. Importantly, we also find them to work well across languages. We conclude with recommendations for future anonymization tools and will release the benchmark and encourage community efforts to expand it, in particular to other geographies.
- Abstract(参考訳): 個人情報を含むデータは、大規模言語モデル(LLM)の訓練、微調整、クエリにますます使われている。
テキストは通常、使用する前に情報を識別するためにスクラブされ、しばしばMicrosoftのPresidioやAnthropicのPIIパーファイラのようなツールで使用される。
これらのツールは、伝統的に特定の識別子(名前など)を除去する能力で評価されてきたが、再識別を防ぐ効果は未だ不明である。
我々は、再識別リスクに基づいたテキスト匿名化ツールの総合ベンチマークであるRAT-Benchを紹介する。
アメリカの統計データを用いて、ドメイン、言語、難易度にまたがる様々な直接的および間接的識別子を含む合成テキストを生成する。
我々は、NERおよびLLMベースのテキスト匿名化ツールの範囲を評価し、LLMベースの攻撃者が匿名化テキストから正しく推測できる属性に基づいて、識別子の異なる影響を適切に考慮しつつ、米国内での再識別のリスクを報告した。
特に、ダイレクト識別子が標準の方法で書かれていない場合や、間接識別子が再識別を可能にする場合において、最高のツールでさえ完璧ではないことが分かっています。
全体として、新しい反復匿名化器を含むLCMベースの匿名化器は、より高い計算コストで、より優れたプライバシー利用トレードオフを提供する。
重要なのは、言語間でうまく動作することです。
今後の匿名化ツールの推奨事項を締めくくり、ベンチマークを公開し、コミュニティの取り組み、特に他の地域への拡張を奨励します。
関連論文リスト
- Local Language Models for Context-Aware Adaptive Anonymization of Sensitive Text [0.7349727826230863]
本研究は, ローカルLLMを用いて, 信頼性, 再現性, コンテキスト対応の匿名化プロセスを構築する。
本稿では,適応匿名化のための構造化フレームワーク(Structured Framework for Adaptive Anonymizer, SFAA)を紹介する。
論文 参考訳(メタデータ) (2026-01-21T05:59:56Z) - Unleashing the Native Recommendation Potential: LLM-Based Generative Recommendation via Structured Term Identifiers [51.64398574262054]
本稿では,意味的にリッチで標準化されたテキストキーワードの集合として定義された用語ID(TID)を導入し,堅牢な項目識別子として機能する。
本稿では,TIDを中心にした新しいフレームワークGRLMを提案し,項目のメタデータを標準化されたTIDに変換し,統合的インストラクションファインタニングを活用して,用語の内部化とシーケンシャルレコメンデーションを協調的に最適化する。
論文 参考訳(メタデータ) (2026-01-11T07:53:20Z) - AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文 参考訳(メタデータ) (2025-06-26T02:48:16Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [48.280759014096354]
本稿では,Self-refining Anonymization with Language Model (SEAL)を紹介する。
SEALは、推論時に外部モデルに頼ることなく効果的な匿名化を行うために、小型言語モデル(SLM)をトレーニングするための新しい蒸留フレームワークである。
合成個人プロファイルとテキストコメントのデータセットであるSynthPAIの実験は、SEALでトレーニングされたSLMが匿名化機能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - AIDBench: A benchmark for evaluating the authorship identification capability of large language models [14.866356328321126]
我々は、大きな言語モデル(LLM)が匿名テキストの作者を特定するのに役立つ、特定のプライバシーリスクに焦点を当てる。
AIDBenchは、メール、ブログ、レビュー、記事、研究論文など、いくつかの著者識別データセットを組み込んだ新しいベンチマークである。
AIDBenchによる我々の実験は、LLMがランダムな確率よりもはるかに高い確率で著者を推測できることを示し、これらの強力なモデルによって引き起こされる新たなプライバシーリスクを明らかにした。
論文 参考訳(メタデータ) (2024-11-20T11:41:08Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。