論文の概要: An Open Source Python Library for Anonymizing Sensitive Data
- arxiv url: http://arxiv.org/abs/2408.10766v1
- Date: Tue, 20 Aug 2024 12:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:55:03.931449
- Title: An Open Source Python Library for Anonymizing Sensitive Data
- Title(参考訳): 感性データを匿名化するためのオープンソースのPythonライブラリ
- Authors: Judith Sáinz-Pardo Díaz, Álvaro López García,
- Abstract要約: 本稿では,感性のある表データの匿名化のためのPythonライブラリの実装について述べる。
このフレームワークは、ユーザが所定のデータセットに適用可能な、幅広い匿名化メソッドを提供する。
このライブラリは、統合と継続的開発のためのベストプラクティスに従って実装されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open science is a fundamental pillar to promote scientific progress and collaboration, based on the principles of open data, open source and open access. However, the requirements for publishing and sharing open data are in many cases difficult to meet in compliance with strict data protection regulations. Consequently, researchers need to rely on proven methods that allow them to anonymize their data without sharing it with third parties. To this end, this paper presents the implementation of a Python library for the anonymization of sensitive tabular data. This framework provides users with a wide range of anonymization methods that can be applied on the given dataset, including the set of identifiers, quasi-identifiers, generalization hierarchies and allowed level of suppression, along with the sensitive attribute and the level of anonymity required. The library has been implemented following best practices for integration and continuous development, as well as the use of workflows to test code coverage based on unit and functional tests.
- Abstract(参考訳): オープンサイエンスは、オープンデータ、オープンソース、オープンアクセスの原則に基づいて、科学的進歩とコラボレーションを促進するための基本的な柱である。
しかし、オープンデータの公開と共有の要件は、厳格なデータ保護規則に従うことが困難な場合が多い。
その結果、研究者は第三者と共有することなく、データの匿名化を可能にする実証済みの方法に頼る必要がある。
そこで本稿では, センシティブな表データの匿名化のためのPythonライブラリの実装について述べる。
このフレームワークは、ユーザに対して、識別子のセット、擬似識別子、一般化階層、許容される抑圧レベルを含む、所定のデータセットに適用可能な幅広い匿名化メソッドと、センシティブな属性と匿名性レベルを含む、幅広い匿名化方法を提供する。
このライブラリは、統合と継続的開発のためのベストプラクティスと、単体/機能テストに基づいたコードカバレッジテストのためのワークフローの使用に従って実装されている。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Toxicity of the Commons: Curating Open-Source Pre-Training Data [6.137272725645159]
本研究では、パブリックドメインデータに基づいてトレーニングされたモデルにより有害な出力を減らすためのデータキュレーションパイプラインを提案する。
現在の毒性フィルタリングに対する最先端のアプローチは、しばしばオープンデータモデルに不適当または不適当である。
我々は5つの異なる次元にまたがって分類されたテキストからなるカスタムトレーニングデータセット、ToxicCommonsを作成します。
論文 参考訳(メタデータ) (2024-10-29T23:00:05Z) - Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets [2.7082111912355877]
COMIDDSは、侵入検出データセットを前例のないレベルで包括的に調査する試みである。
実際のデータサンプルや関連する出版物へのリンクを含む、各データセットに関する構造化されたクリティカルな情報を提供する。
論文 参考訳(メタデータ) (2024-08-05T14:40:41Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Privacy-Preserving Hierarchical Anonymization Framework over Encrypted Data [0.061446808540639365]
本研究では、同型暗号と2種類のドメインからなる秘密共有を用いた階層的k匿名化フレームワークを提案する。
実験により、2つのドメインを接続することで匿名化プロセスが促進され、提案したセキュア階層型アーキテクチャが実用的かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-10-19T01:08:37Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z) - OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set
Unlabeled Data [65.19205979542305]
ラベル付けされていないデータには、実際にはクラス外のサンプルが含まれる。
OpenCoSは、このリアルな半教師付き学習シナリオを扱う方法である。
論文 参考訳(メタデータ) (2021-06-29T06:10:05Z) - Secure Sum Outperforms Homomorphic Encryption in (Current) Collaborative
Deep Learning [7.690774882108066]
我々は、異なるデータ所有者のジョイントデータに基づいてニューラルネットワークをトレーニングする方法について議論し、各パーティの入力を秘密にしている。
より複雑で計算コストの低いセキュア和プロトコルは、共謀耐性と実行性の両方において優れた特性を示すことを示す。
論文 参考訳(メタデータ) (2020-06-02T23:03:32Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。