論文の概要: Towards Contextual Sensitive Data Detection
- arxiv url: http://arxiv.org/abs/2512.04120v1
- Date: Tue, 02 Dec 2025 09:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.795027
- Title: Towards Contextual Sensitive Data Detection
- Title(参考訳): 文脈感性データ検出に向けて
- Authors: Liang Telkamp, Madelon Hulsebos,
- Abstract要約: 本稿では,文脈に敏感なデータ検出のための2つのメカニズムを提案する。
型コンテキスト化は、まず特定のデータ値の意味型を検出し、その後、全体的なコンテキストを考慮する。
第二に、より広い文脈で与えられたデータセットの感度を決定するドメインコンテキスト化を導入する。
- 参考スコア(独自算出の注目度): 2.4493299476776778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of open data portals necessitates more attention to protecting sensitive data before datasets get published and exchanged. While an abundance of methods for suppressing sensitive data exist, the conceptualization of sensitive data and methods to detect it, focus particularly on personal data that, if disclosed, may be harmful or violate privacy. We observe the need for refining and broadening our definitions of sensitive data, and argue that the sensitivity of data depends on its context. Based on this definition, we introduce two mechanisms for contextual sensitive data detection that con- sider the broader context of a dataset at hand. First, we introduce type contextualization, which first detects the semantic type of particular data values, then considers the overall context of the data values within the dataset or document. Second, we introduce domain contextualization which determines sensitivity of a given dataset in the broader context based on the retrieval of relevant rules from documents that specify data sensitivity (e.g., data topic and geographic origin). Experiments with these mechanisms, assisted by large language models (LLMs), confirm that: 1) type-contextualization significantly reduces the number of false positives for type-based sensitive data detection and reaches a recall of 94% compared to 63% with commercial tools, and 2) domain-contextualization leveraging sensitivity rule retrieval is effective for context-grounded sensitive data detection in non-standard data domains such as humanitarian datasets. Evaluation with humanitarian data experts also reveals that context-grounded LLM explanations provide useful guidance in manual data auditing processes, improving consistency. We open-source mechanisms and annotated datasets for contextual sensitive data detection at https://github.com/trl-lab/sensitive-data-detection.
- Abstract(参考訳): オープンデータポータルの出現は、データセットが公開され、交換される前に、機密データの保護により多くの注意を払う必要がある。
機密データを抑制する方法が多数存在するが、機密データやそれを検出する方法の概念化は、特に個人情報に焦点を絞っている。
我々は、機密データの定義を精細化し、拡張する必要性を観察し、データの感度はその文脈に依存すると主張している。
この定義に基づいて、データセットのより広いコンテキストを左右するコンテキスト依存型データ検出のための2つのメカニズムを導入する。
まず、まず特定のデータ値の意味型を検出し、次にデータセットやドキュメント内のデータ値の全体的なコンテキストを考察する。
第2に、データ感度を規定する文書(例えば、データトピックと地理的起源)から関連するルールの検索に基づいて、より広い文脈でデータセットの感度を決定するドメインコンテキスト化を導入する。
大規模言語モデル(LLM)によって支援されたこれらのメカニズムの実験により、以下のことが確認された。
1)タイプコンテクスチャライゼーションは、型ベースの機密データ検出における偽陽性数を大幅に減らし、商用ツールの63%に比べて94%のリコールを実現している。
2) 感性規則検索を利用したドメインコンテキスト化は,人文的データセットなどの非標準データ領域におけるコンテキスト基底型感性データ検出に有効である。
人道的なデータ専門家による評価は、文脈に基づくLCMの説明が手動のデータ監査プロセスに有用なガイダンスを提供し、一貫性を改善していることも明らかにしている。
我々はhttps://github.com/trl-lab/sensitive-data-detectionでコンテキストに敏感なデータ検出のためのメカニズムとアノテートデータセットをオープンソース化した。
関連論文リスト
- DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data [9.492736565723892]
匿名化によるデータのプライバシと保護は、他のデータの使用が期待される前にネットワークオペレータやデータ所有者にとって重要な問題である。
オープンWiFiネットワークは、データ所有者が持つ知識に関係なく、トラフィックへのアクセスや知識を得ようとする敵に対して脆弱である。
CTGANは合成データを生成する。これは実際のデータとして偽装するが、実際のデータの隠れた急性情報を促進する。
論文 参考訳(メタデータ) (2024-01-03T04:59:03Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
論文 参考訳(メタデータ) (2022-10-25T14:33:17Z) - Sensitive Information Detection: Recursive Neural Networks for Encoding
Context [0.20305676256390928]
機密情報の漏洩は非常にコストがかかる可能性がある。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
論文 参考訳(メタデータ) (2020-08-25T07:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。