論文の概要: Fair Finetuning Mitigates Distribution Inference Attacks
- arxiv url: http://arxiv.org/abs/2606.01719v1
- Date: Mon, 01 Jun 2026 05:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.394632
- Title: Fair Finetuning Mitigates Distribution Inference Attacks
- Title(参考訳): フェアファインタニングは分布推定攻撃を緩和する
- Authors: Rakshit Naidu,
- Abstract要約: センシティブなデータに基づいてトレーニングされた機械学習モデルは、トレーニングディストリビューションに関する人口レベルの情報を不注意に漏洩させる可能性がある。
フェアファインチューニング (FFt: Fair Fine-tuning) モデルを提案する。
我々の研究は、モデルが測定したEO差分をDIAゲームにおける敵の優位性に直接接続する最初の形式的境界を提供する。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models trained on sensitive data can inadvertently leak population-level information about their training distributions -- a threat known as distribution inference attack (DIA). An adversary with black-box access can infer sensitive demographic properties, such as subgroup proportions, without observing any training data directly. While defenses such as differential privacy and property unlearning have been proposed, the link between fairness constraints and distributional leakage remains unexplored. We propose Fair Fine-tuning (FFt): a trained model is fine-tuned on samples from the complementary distribution under an Equalized Odds (EO) constraint. We provide a complete theoretical characterization, proving the tight bound $\text{Adv}(\mathcal{A},M_f) \le Δ_{\text{EO}} \cdot W$, where $W$ quantifies how distinguishable the two training distributions are by their sensitive-attribute composition. We also establish a necessary condition for FFt to reduce adversarial advantage and prove tightness of the bound. We evaluate across six datasets spanning tabular (ACS Income, COMPAS, German Credit), image (UTKFaces), and NLP (Bias in Bios) modalities. Rehearsal-based FFt consistently reduces the adversarial accuracy gap below the detection threshold $τ!=!0.1$ across all settings; on ACS Income, the gap falls from $\sim!15%$ to under $4%$. Our work provides the first formal bound connecting a model's measured EO disparity directly to its adversarial advantage in the DIA game, opening a new avenue for unified fairness-and-privacy defenses.
- Abstract(参考訳): センシティブなデータに基づいてトレーニングされた機械学習モデルは、トレーニングディストリビューションに関する人口レベルの情報を不注意に漏洩させる可能性がある。
ブラックボックスアクセスの敵は、トレーニングデータを直接観察することなく、サブグループ比率などのセンシティブな人口統計特性を推測することができる。
差分プライバシーや未学習などの防衛策が提案されているが、公平性制約と分散リークとの関係は未解明のままである。
等化オッド (EO) 制約の下で, 相補分布のサンプルに対して, 訓練されたモデルを微調整するフェアファインチューニング (FFt) を提案する。
We provide a complete theoretical characterization, proving the tight bound $\text{Adv}(\mathcal{A},M_f) \le Δ_{\text{EO}} \cdot W$。
また、FFtが対向的優位性を低下させ、境界の厳密性を証明するために必要な条件も確立する。
表表形式(ACS Income, COMPAS, German Credit), Image(UTKFaces), NLP(Bias in Bios)の6つのデータセットについて評価を行った。
リハーサルベースFFtは、検出しきい値(τ!
=!
ACS Incomeでは、ギャップは$\sim!
15% 対 4% 以下
我々の研究は、モデルが測定したEO格差をDIAゲームにおける敵の優位性に直接接続する最初の公式な境界を提供し、統一された公正とプライバシの防御のための新たな道を開く。
関連論文リスト
- Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - GuardFed: A Trustworthy Federated Learning Framework Against Dual-Facet Attacks [56.983319121358555]
フェデレートラーニング(FL)は、プライバシ保護のための協調モデルトレーニングを可能にするが、敵の行動に弱いままである。
本稿では,予測精度とグループフェアネスを同時に損なう新たな脅威モデルであるデュアル顔攻撃(DFA)を紹介する。
本稿では,少量のクリーンサーバデータを用いて,公正な参照モデルを維持する自己適応型防衛フレームワークであるGuardFedを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:02:45Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - On the Vulnerability of Fairness Constrained Learning to Malicious Noise [28.176039923404883]
トレーニングデータにおいて、公平性に制約された学習の脆弱性を少数の悪意のある雑音に対して考慮する。
例えば、Demographic Parityでは、$Theta(alpha)$の精度損失しか発生せず、$alpha$は悪意のあるノイズレートであることを示す。
Equal Opportunity に対して、$O(sqrtalpha)$損失を発生させ、一致する$Omega(sqrtalpha)$ lower bound を与える。
論文 参考訳(メタデータ) (2023-07-21T20:26:54Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。