論文の概要: Making Users Indistinguishable: Attribute-wise Unlearning in Recommender
Systems
- arxiv url: http://arxiv.org/abs/2310.05847v1
- Date: Fri, 6 Oct 2023 09:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 00:28:02.122689
- Title: Making Users Indistinguishable: Attribute-wise Unlearning in Recommender
Systems
- Title(参考訳): ユーザを区別不能にする:レコメンダシステムにおける属性による学習
- Authors: Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Yizhao Zhang, Zhongxuan Han,
Dan Meng, Jun Wang
- Abstract要約: 攻撃者は、訓練中に明示的に遭遇していない場合でも、訓練されたモデルから個人情報、すなわち性別、人種、年齢を抽出することができる。
ユーザのセンシティブな属性を保護するために、Attribute Unlearning (AU)は攻撃性能を低下させ、ターゲット属性を識別不能にする。
- 参考スコア(独自算出の注目度): 28.566330708233824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing privacy concerns in recommender systems, recommendation
unlearning, i.e., forgetting the impact of specific learned targets, is getting
increasing attention. Existing studies predominantly use training data, i.e.,
model inputs, as the unlearning target. However, we find that attackers can
extract private information, i.e., gender, race, and age, from a trained model
even if it has not been explicitly encountered during training. We name this
unseen information as attribute and treat it as the unlearning target. To
protect the sensitive attribute of users, Attribute Unlearning (AU) aims to
degrade attacking performance and make target attributes indistinguishable. In
this paper, we focus on a strict but practical setting of AU, namely
Post-Training Attribute Unlearning (PoT-AU), where unlearning can only be
performed after the training of the recommendation model is completed. To
address the PoT-AU problem in recommender systems, we design a two-component
loss function that consists of i) distinguishability loss: making attribute
labels indistinguishable from attackers, and ii) regularization loss:
preventing drastic changes in the model that result in a negative impact on
recommendation performance. Specifically, we investigate two types of
distinguishability measurements, i.e., user-to-user and
distribution-to-distribution. We use the stochastic gradient descent algorithm
to optimize our proposed loss. Extensive experiments on three real-world
datasets demonstrate the effectiveness of our proposed methods.
- Abstract(参考訳): 推薦システムにおけるプライバシー問題の増加に伴い、特定の学習対象の影響を忘れるレコメンデーションアンラーニングが注目されている。
既存の研究はトレーニングデータ、すなわちモデル入力を学習対象として主に使用している。
しかし、攻撃者は訓練中に明示的に遭遇していない場合でも、訓練されたモデルから個人情報、すなわち性別、人種、年齢を抽出できることがわかった。
この未知の情報を属性として命名し、未学習のターゲットとして扱う。
ユーザのセンシティブな属性を保護するために、Attribute Unlearning (AU)は攻撃性能を低下させ、ターゲット属性を識別不能にする。
本稿では,推薦モデルの学習が完了した後のみ学習を行うことのできる,厳格だが実践的なAU(Post-Training Attribute Unlearning, PoT-AU)に焦点を当てる。
推薦システムにおけるPoT-AU問題に対処するため、我々は2成分損失関数を設計する。
一 識別性損失:属性ラベルを攻撃者と区別不能にすること。
二 正規化損失:推薦性能に悪影響を及ぼすモデルにおける急激な変化を防止すること。
具体的には,2種類の識別性測定,すなわち,ユーザ対ユーザおよび配信対分散について検討する。
確率勾配降下アルゴリズムを用いて,提案する損失を最適化する。
3つの実世界のデータセットに関する広範囲な実験により,提案手法の有効性が示された。
関連論文リスト
- Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Membership Inference Attacks Against Latent Factor Model [0.0]
推奨項目のリストを取得するには、潜在因子モデルをレコメンダとして使用します。
シャドーレコメンデータは、攻撃モデルに対するラベル付きトレーニングデータを導出するために設定される。
実験データから,攻撃モデルのAUC指数が実データセットMovieLensで0.857に達することを示す。
論文 参考訳(メタデータ) (2022-12-15T08:16:08Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - Unlearning Protected User Attributes in Recommendations with Adversarial
Training [10.268369743620159]
協調フィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報を含む、基礎となる消費パターンをキャプチャする。
これらの符号化バイアスは、様々な階層のサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステムの決定に影響を与える可能性がある。
本研究では,RSアルゴリズムの学習的相互作用表現から,ユーザの特定の保護された情報を除去する可能性と課題について検討する。
論文 参考訳(メタデータ) (2022-06-09T13:36:28Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Black-box Model Inversion Attribute Inference Attacks on Classification
Models [32.757792981935815]
我々は、トレーニングデータのインスタンスに関する非感受性属性を敵が知るような、ある種類のモデル反転攻撃に焦点を当てる。
信頼モデルに基づく攻撃と信頼スコアに基づく攻撃の2つの新しいモデル反転属性推論攻撃を考案した。
2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-12-07T01:14:19Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。