論文の概要: FAST: Feature Aware Similarity Thresholding for Weak Unlearning in Black-Box Generative Models
- arxiv url: http://arxiv.org/abs/2312.14895v2
- Date: Thu, 20 Jun 2024 06:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:58:16.065195
- Title: FAST: Feature Aware Similarity Thresholding for Weak Unlearning in Black-Box Generative Models
- Title(参考訳): FAST:ブラックボックス生成モデルにおける弱学習のための類似性認識
- Authors: Subhodip Panda, Prathosh AP,
- Abstract要約: 機械学習は、特定の知識を選択的に忘れたり、事前訓練されたモデルから望ましくないデータサブセットの影響を取り除くために現れた。
提案するtextbftextitFeature Aware similarity Thresholding(FAST)法は,潜在空間における不要な特徴の表現を体系的に符号化することにより,望ましくない出力を効果的に抑制する。
- 参考スコア(独自算出の注目度): 4.7163839266526315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The heightened emphasis on the regulation of deep generative models, propelled by escalating concerns pertaining to privacy and compliance with regulatory frameworks, underscores the imperative need for precise control mechanisms over these models. This urgency is particularly underscored by instances in which generative models generate outputs that encompass objectionable, offensive, or potentially injurious content. In response, machine unlearning has emerged to selectively forget specific knowledge or remove the influence of undesirable data subsets from pre-trained models. However, modern machine unlearning approaches typically assume access to model parameters and architectural details during unlearning, which is not always feasible. In multitude of downstream tasks, these models function as black-box systems, with inaccessible pre-trained parameters, architectures, and training data. In such scenarios, the possibility of filtering undesired outputs becomes a practical alternative. The primary goal of this study is twofold: first, to elucidate the relationship between filtering and unlearning processes, and second, to formulate a methodology aimed at mitigating the display of undesirable outputs generated from models characterized as black-box systems. Theoretical analysis in this study demonstrates that, in the context of black-box models, filtering can be seen as a form of weak unlearning. Our proposed \textbf{\textit{Feature Aware Similarity Thresholding(FAST)}} method effectively suppresses undesired outputs by systematically encoding the representation of unwanted features in the latent space.
- Abstract(参考訳): 深層生成モデルの規制の強調は、プライバシーや規制フレームワークへのコンプライアンスに関する懸念をエスカレートすることで促進され、これらのモデルに対する正確な制御機構の強制的な必要性を浮き彫りにしている。
この緊急性は、生成モデルが好ましくない、攻撃的、潜在的に有害なコンテンツを含むアウトプットを生成する事例によって特に強調されている。
これに対し、機械学習は特定の知識を選択的に忘れるか、事前学習されたモデルから望ましくないデータサブセットの影響を取り除くために現れた。
しかし、現代の機械学習アプローチは、通常、学習中にモデルパラメータやアーキテクチャの詳細へのアクセスを前提としています。
下流タスクでは、これらのモデルはブラックボックスシステムとして機能し、アクセシブルな事前訓練パラメータ、アーキテクチャ、トレーニングデータを持つ。
このようなシナリオでは、望ましくない出力をフィルタリングする可能性も現実的な代替となる。
この研究の主な目的は2つある: まず、フィルタリングと未学習プロセスの関係を解明し、次に、ブラックボックスシステムとして特徴づけられるモデルから生成された望ましくない出力の表示を緩和する方法論を定式化することである。
本研究における理論的分析は,ブラックボックスモデルの文脈において,フィルタリングを弱い未学習の一形態とみなすことができることを示した。
提案手法は,潜在空間における不要な特徴の表現を体系的に符号化することにより,望ましくない出力を効果的に抑制する。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Unlearning Information Bottleneck: Machine Unlearning of Systematic Patterns and Biases [6.936871609178494]
本稿では,機械学習のプロセスを強化するための新しい情報理論フレームワークであるUnlearning Information Bottleneck(UIB)を紹介する。
変分上界を提案することにより,データ分布の変化を安価な計算コストと統合する動的事前計算により,モデルパラメータを再検討する。
さまざまなデータセット,モデル,未学習手法を対象とした実験により,本手法は学習後のモデルの性能を維持しながら,体系的なパターンやバイアスを効果的に除去することを示した。
論文 参考訳(メタデータ) (2024-05-22T21:54:05Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - CLIMAX: An exploration of Classifier-Based Contrastive Explanations [5.381004207943597]
我々は,ブラックボックスの分類を正当化する対照的な説明を提供する,ポストホックモデルXAI手法を提案する。
CLIMAXと呼ばれる手法は,局所的な分類法に基づく。
LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。
論文 参考訳(メタデータ) (2023-07-02T22:52:58Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Design of Dynamic Experiments for Black-Box Model Discrimination [72.2414939419588]
選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。
勾配情報にアクセス可能な競合する力学モデルに対しては、既存の手法を拡張し、より広い範囲の問題の不確実性を組み込む。
これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換えることで、モデル識別設定を拡張して、競合するブラックボックスモデルをさらに取り入れる。
論文 参考訳(メタデータ) (2021-02-07T11:34:39Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。