論文の概要: SKALD: Scalable K-Anonymisation for Large Datasets
- arxiv url: http://arxiv.org/abs/2505.03529v1
- Date: Tue, 06 May 2025 13:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.400005
- Title: SKALD: Scalable K-Anonymisation for Large Datasets
- Title(参考訳): SKALD: 大規模データセットのためのスケーラブルなK匿名化
- Authors: Kailash Reddy, Novoneel Chakraborty, Amogh Dharmavaram, Anshoo Tandon,
- Abstract要約: SKALDは、RAMに制限のある大規模なデータセット上でk匿名化を実行するための新しいアルゴリズムである。
提案アルゴリズムは,k-匿名化方式よりも複数倍の性能向上を実現する。
- 参考スコア(独自算出の注目度): 4.1034194672472575
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data privacy and anonymisation are critical concerns in today's data-driven society, particularly when handling personal and sensitive user data. Regulatory frameworks worldwide recommend privacy-preserving protocols such as k-anonymisation to de-identify releases of tabular data. Available hardware resources provide an upper bound on the maximum size of dataset that can be processed at a time. Large datasets with sizes exceeding this upper bound must be broken up into smaller data chunks for processing. In these cases, standard k-anonymisation tools such as ARX can only operate on a per-chunk basis. This paper proposes SKALD, a novel algorithm for performing k-anonymisation on large datasets with limited RAM. Our SKALD algorithm offers multi-fold performance improvement over standard k-anonymisation methods by extracting and combining sufficient statistics from each chunk during processing to ensure successful k-anonymisation while providing better utility.
- Abstract(参考訳): データプライバシと匿名化は、特に個人的および機密性の高いユーザーデータを扱う場合、今日のデータ駆動型社会において重要な関心事である。
世界中の規制フレームワークは、k匿名化のようなプライバシー保護プロトコルを推奨し、表データのリリースを識別する。
利用可能なハードウェアリソースは、一度に処理できるデータセットの最大サイズの上限を提供する。
この上限を超えるサイズを持つ大規模なデータセットは、処理のために小さなデータチャンクに分割する必要があります。
このような場合、ARXのような標準的なk匿名化ツールは、チャンク単位でのみ動作する。
本稿では,RAMに制限のある大規模データセット上でk-匿名化を行う新しいアルゴリズムであるSKALDを提案する。
我々のSKALDアルゴリズムは、処理中に各チャンクから十分な統計情報を抽出し、組み合わせることで、標準的なk匿名化手法よりも多面的な性能向上を実現し、より良いユーティリティを提供しながら、k匿名化を成功させる。
関連論文リスト
- Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation [9.819636361032256]
Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。
最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。
本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:59:03Z) - Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs [20.774525687291167]
そこで本稿では,広範囲なプロンプトエンジニアリングや数十億規模の微調整を伴わずに,プライバシ保護型合成データを生成する新しいフレームワークを提案する。
CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。
さらにプライベートドメインに適応するために、トピックモデルがDPヒストグラムを抽出する間、作成したジェネレータは、詳細なテキスト情報のためにプライベートデータに対してDP微調整される。
論文 参考訳(メタデータ) (2025-03-16T04:00:32Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - An Open Source Python Library for Anonymizing Sensitive Data [0.0]
本稿では,感性のある表データの匿名化のためのPythonライブラリの実装について述べる。
このフレームワークは、ユーザが所定のデータセットに適用可能な、幅広い匿名化メソッドを提供する。
このライブラリは、統合と継続的開発のためのベストプラクティスに従って実装されている。
論文 参考訳(メタデータ) (2024-08-20T12:01:57Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - A Trajectory K-Anonymity Model Based on Point Density and Partition [0.0]
本稿では点密度と分割(K PDP)に基づく軌道K匿名性モデルを開発する。
再識別攻撃に抵抗し、k匿名データセットのデータユーティリティ損失を低減する。
論文 参考訳(メタデータ) (2023-07-31T17:10:56Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - SEAM: Searching Transferable Mixed-Precision Quantization Policy through
Large Margin Regularization [50.04951511146338]
混合精度量子化(MPQ)は各層に対して最適なビット幅割り当てを求めるのに時間を要する。
本稿では,小規模なプロキシデータセットを用いて効率的なMPQポリシーを効率的に検索する手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T05:47:45Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。