論文の概要: RedacBench: Can AI Erase Your Secrets?
- arxiv url: http://arxiv.org/abs/2603.20208v1
- Date: Mon, 02 Mar 2026 06:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.885286
- Title: RedacBench: Can AI Erase Your Secrets?
- Title(参考訳): RedacBench: AIはあなたの秘密を消せるか?
- Authors: Hyunjun Jeon, Kyuyoung Kim, Jinwoo Shin,
- Abstract要約: ドメインと戦略間のポリシー条件付きリアクションを評価するベンチマークであるRedacBenchを紹介します。
RedacBenchは、オリジナルのセマンティクスを保持しながらポリシー違反情報を選択的に除去するモデルの能力を測定する。
我々は8,053の注釈付き命題を用いて、各テキスト中のすべての推測可能な情報をキャプチャする性能を定量化する。
- 参考スコア(独自算出の注目度): 48.280759014096354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models can readily extract sensitive information from unstructured text, making redaction -- the selective removal of such information -- critical for data security. However, existing benchmarks for redaction typically focus on predefined categories of data such as personally identifiable information (PII) or evaluate specific techniques like masking. To address this limitation, we introduce RedacBench, a comprehensive benchmark for evaluating policy-conditioned redaction across domains and strategies. Constructed from 514 human-authored texts spanning individual, corporate, and government sources, paired with 187 security policies, RedacBench measures a model's ability to selectively remove policy-violating information while preserving the original semantics. We quantify performance using 8,053 annotated propositions that capture all inferable information in each text. This enables assessment of both security -- the removal of sensitive propositions -- and utility -- the preservation of non-sensitive propositions. Experiments across multiple redaction strategies and state-of-the-art language models show that while more advanced models can improve security, preserving utility remains a challenge. To facilitate future research, we release RedacBench along with a web-based playground for dataset customization and evaluation. Available at https://hyunjunian.github.io/redaction-playground/.
- Abstract(参考訳): 現代の言語モデルは、構造化されていないテキストからセンシティブな情報を簡単に抽出することができ、データセキュリティにとって重要な情報の再アクション -- 選択的な削除 -- を実現している。
しかしながら、リアクションのための既存のベンチマークは通常、個人識別可能な情報(PII)やマスキングのような特定の技術の評価のような、事前定義されたデータのカテゴリに焦点を当てる。
この制限に対処するため、私たちは、ドメインと戦略間のポリシー条件付きリアクションを評価するための包括的なベンチマークであるRedacBenchを紹介します。
個人、企業、政府ソースにまたがる514の人間によるテキストから構築され、187のセキュリティポリシーと組み合わせて、RedacBenchはオリジナルのセマンティクスを維持しながらポリシー違反情報を選択的に除去する能力を測定する。
我々は8,053の注釈付き命題を用いて、各テキスト中のすべての推測可能な情報をキャプチャする性能を定量化する。
これにより、機密事項の削除というセキュリティと、非機密事項の保存というユーティリティの両方を評価できる。
複数のリアクション戦略と最先端の言語モデルによる実験は、より高度なモデルではセキュリティが向上するが、実用性を維持することは依然として課題であることを示している。
今後の研究を容易にするため、RedacBenchと、データセットのカスタマイズと評価のためのWebベースの遊び場をリリースする。
https://hyunjunian.github.io/redaction-playground/.comで入手できる。
関連論文リスト
- Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。
既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。
我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-25T07:23:52Z) - Information Leakage of Sentence Embeddings via Generative Embedding Inversion Attacks [1.6427658855248815]
本研究では,様々なニューラル文埋め込みモデルにまたがってGEIAの結果を再現する。
本稿では,GEIA で提案されている攻撃者のアーキテクチャを変更することなく,シンプルかつ効果的な手法を提案する。
本研究の結果から, 文の埋め込み作成に使用する人気モデルの事前学習知識に関連する有意義な情報を, 相手側が回収できることが示唆された。
論文 参考訳(メタデータ) (2025-04-23T10:50:23Z) - Truthful Text Sanitization Guided by Inference Attacks [3.3802914883339557]
そこで本研究では,原文のセマンティックな内容をサブセットとした一般化に基づく新しいテキスト衛生手法を提案する。
このアプローチは命令チューニングされた大規模言語モデル(LLM)の使用に依存しており、2つの段階に分けられる。
Text Anonymization Benchmarkの結果、Mistral 7B Instructで実装された提案手法は、実用性の向上につながることが示された。
論文 参考訳(メタデータ) (2024-12-17T14:07:01Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models [0.0]
本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:42:37Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。