論文の概要: Aegis: A Correlation-Based Data Masking Advisor for Data Sharing Ecosystems
- arxiv url: http://arxiv.org/abs/2510.10810v2
- Date: Tue, 04 Nov 2025 20:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:40.071614
- Title: Aegis: A Correlation-Based Data Masking Advisor for Data Sharing Ecosystems
- Title(参考訳): Aegis: データ共有エコシステムのための相関ベースのデータマスキングアドバイザ
- Authors: Omar Islam Laskar, Fatemeh Ramezani Khozestani, Ishika Nankani, Sohrab Namazi Nia, Senjuti Basu Roy, Kaustubh Beedkar,
- Abstract要約: 本稿では,特徴とクラスラベルを持つ機械学習データセットに対して,最適なマスキング構成を選択するフレームワークを提案する。
Aegisは、予測ユーティリティの偏差を最小限に抑え、マスキングによる特徴ラベル相関の変化を定量化するユーティリティを組み込んでいる。
実世界のデータセットを実験的に評価したところ、Aegisは最適なマスキング構成を桁違いに高速に識別できることがわかった。
- 参考スコア(独自算出の注目度): 4.614078797875801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sharing ecosystems connect providers, consumers, and intermediaries to facilitate the exchange and use of data for a wide range of downstream tasks. In sensitive domains such as healthcare, privacy is enforced as a hard constraint, any shared data must satisfy a minimum privacy threshold. However, among all masking configurations that meet this requirement, the utility of the masked data can vary significantly, posing a key challenge: how to efficiently select the optimal configuration that preserves maximum utility. This paper presents Aegis, a middleware framework that selects optimal masking configurations for machine learning datasets with features and class labels. Aegis incorporates a utility optimizer that minimizes predictive utility deviation, quantifying shifts in feature label correlations due to masking. Our framework leverages limited data summaries (such as 1D histograms) or none to estimate the feature label joint distribution, making it suitable for scenarios where raw data is inaccessible due to privacy restrictions. To achieve this, we propose a joint distribution estimator based on iterative proportional fitting, which allows supporting various feature label correlation quantification methods such as mutual information, chi square, or g3. Our experimental evaluation of real world datasets shows that Aegis identifies optimal masking configurations over an order of magnitude faster, while the resulting masked datasets achieve predictive performance on downstream ML tasks on par with baseline approaches and complements privacy anonymization data masking techniques.
- Abstract(参考訳): データ共有エコシステムは、プロバイダ、コンシューマ、仲介者を接続し、幅広い下流タスクのためのデータの交換と利用を容易にする。
医療などの機密性の高い領域では、プライバシーは厳しい制約として強制され、共有データは最小限のプライバシー閾値を満たさなければならない。
しかし、この要件を満たすすべてのマスキング構成の中で、マスキングされたデータの実用性は大きく異なり、最大のユーティリティを保持する最適な構成を効率的に選択する方法が重要な課題となっている。
本稿では,特徴とクラスラベルを持つ機械学習データセットに対して,最適なマスキング構成を選択するミドルウェアフレームワークであるAegisを提案する。
Aegisは、予測ユーティリティ偏差を最小限に抑えるユーティリティオプティマイザを導入し、マスキングによる特徴ラベル相関の変化を定量化する。
我々のフレームワークは, 限られたデータ要約(例えば1Dヒストグラム)を利用するか, 特徴ラベルの関節分布を見積もることができないため, プライバシー上の制約により生データがアクセスできないシナリオに適している。
これを実現するために,反復比例フィッティングに基づく共同分布推定器を提案し,相互情報やチ・スクエア,g3などの特徴ラベル相関定量化手法をサポートする。
実世界のデータセットを実験的に評価したところ、Aegisは最適なマスキング構成を桁違いに高速に識別し、結果として得られたマスキングデータセットは、ベースラインのアプローチと同等に下流MLタスクで予測性能を達成し、プライバシ匿名化データマスキング技術を補完することがわかった。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation [2.0444600042188448]
歩行認識は、最も有望なビデオベースの生体認証技術の一つである。
本稿では,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案する。
適応的な空間表現を効果的に抽出し、多スケールの時間情報を自然に集約することができる。
論文 参考訳(メタデータ) (2023-07-29T13:03:17Z) - RARE: Robust Masked Graph Autoencoder [45.485891794905946]
Masked graph autoencoder (MGAE) は、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。
本稿では,ロバストmAsked gRaph autoEncoder (RARE) と呼ばれる新しいSGP手法を提案する。
論文 参考訳(メタデータ) (2023-04-04T03:35:29Z) - L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter [8.183553437724603]
本稿では,単純かつ効果的なラベルレベルの補完手法である textbf Mask AutoEncoder (L-MAE) を提案する。
提案されたモデルは、下流タスクにMask Auto-Encoderを適用した最初のモデルである。
実験では、L-MAE強化データセットでトレーニングされたモデルの13.5%のパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2022-11-21T08:15:18Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。