論文の概要: Aegis: A Correlation-Based Data Masking Advisor for Data Sharing Ecosystems
- arxiv url: http://arxiv.org/abs/2510.10810v1
- Date: Sun, 12 Oct 2025 21:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.117493
- Title: Aegis: A Correlation-Based Data Masking Advisor for Data Sharing Ecosystems
- Title(参考訳): Aegis: データ共有エコシステムのための相関ベースのデータマスキングアドバイザ
- Authors: Omar Islam Laskar, Fatemeh Ramezani Khozestani, Ishika Nankani, Sohrab Namazi Nia, Senjuti Basu Roy, Kaustubh Beedkar,
- Abstract要約: AEGISは、機械学習データセットの最適なマスキング設定を特定するためのフレームワークである。
本研究では,マスキング前後の特徴ラベル相関の変化に基づいて,予測ユーティリティの偏差を最小限に抑えるユーティリティを提案する。
実世界のデータセットを実験的に評価した結果,AEGISは最適マスキング構成を桁違いに高速に識別できることがわかった。
- 参考スコア(独自算出の注目度): 4.614078797875801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-sharing ecosystems enable entities -- such as providers, consumers, and intermediaries -- to access, exchange, and utilize data for various downstream tasks and applications. Due to privacy concerns, data providers typically anonymize datasets before sharing them; however, the existence of multiple masking configurations results in masked datasets with varying utility. Consequently, a key challenge lies in efficiently determining the optimal masking configuration that maximizes a dataset's utility. This paper presents AEGIS, a middleware framework for identifying the optimal masking configuration for machine learning datasets that consist of features and a class label. We introduce a utility optimizer that minimizes predictive utility deviation -- a metric based on the changes in feature-label correlations before and after masking. Our framework leverages limited data summaries (such as 1D histograms) or none to estimate the feature-label joint distribution, making it suitable for scenarios where raw data is inaccessible due to privacy restrictions. To achieve this, we propose a joint distribution estimator based on iterative proportional fitting, which allows supporting various feature-label correlation quantification methods such as g3, mutual information, or chi-square. Our experimental evaluation on real-world datasets shows that AEGIS identifies optimal masking configurations over an order of magnitude faster, while the resulting masked datasets achieve predictive performance on downstream ML tasks that is on par with baseline approaches.
- Abstract(参考訳): データ共有エコシステムは、プロバイダ、コンシューマ、仲介者といったエンティティが、さまざまなダウンストリームタスクやアプリケーションにアクセスし、交換し、利用することを可能にする。
プライバシー上の懸念から、データプロバイダは通常、共有する前にデータセットを匿名化します。
その結果、データセットの有用性を最大化する最適なマスキング構成を効率的に決定することが重要な課題である。
本稿では,特徴量とクラスラベルからなる機械学習データセットの最適マスキング構成を識別するミドルウェアフレームワークであるAEGISを提案する。
マスクの前後における特徴ラベル相関の変化に基づいて,予測ユーティリティの偏差を最小化するユーティリティオプティマイザを導入する。
我々のフレームワークは, 限られたデータ要約(例えば1Dヒストグラム)を利用するか, 特徴ラベルの関節分布を推定することができないため, プライバシー上の制約により生データがアクセスできないシナリオに適している。
そこで本研究では, g3, 相互情報, チ二乗といった特徴ラベル相関定量化手法を, 繰り返し比例フィッティングに基づく共同分布推定器を提案する。
実世界のデータセットを実験的に評価したところ、AIGISは最適なマスキング構成を桁違いに高速に識別し、結果として得られたマスキングデータセットは、ベースラインのアプローチと同等の下流MLタスクで予測性能を達成する。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation [2.0444600042188448]
歩行認識は、最も有望なビデオベースの生体認証技術の一つである。
本稿では,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案する。
適応的な空間表現を効果的に抽出し、多スケールの時間情報を自然に集約することができる。
論文 参考訳(メタデータ) (2023-07-29T13:03:17Z) - RARE: Robust Masked Graph Autoencoder [45.485891794905946]
Masked graph autoencoder (MGAE) は、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。
本稿では,ロバストmAsked gRaph autoEncoder (RARE) と呼ばれる新しいSGP手法を提案する。
論文 参考訳(メタデータ) (2023-04-04T03:35:29Z) - L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter [8.183553437724603]
本稿では,単純かつ効果的なラベルレベルの補完手法である textbf Mask AutoEncoder (L-MAE) を提案する。
提案されたモデルは、下流タスクにMask Auto-Encoderを適用した最初のモデルである。
実験では、L-MAE強化データセットでトレーニングされたモデルの13.5%のパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2022-11-21T08:15:18Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。