論文の概要: Reinforcement Unlearning
- arxiv url: http://arxiv.org/abs/2312.15910v5
- Date: Mon, 9 Sep 2024 08:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:32:49.209357
- Title: Reinforcement Unlearning
- Title(参考訳): 強化アンラーニング
- Authors: Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Kun Gao, Zewei Shi, Sheng Shen, Wanlei Zhou, Minhui Xue,
- Abstract要約: 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。
データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効にする権利を有する。
この特徴は,1) 環境に対する未学習スキームの提案方法,2) 残環境におけるエージェントのパフォーマンス低下を回避する方法,3) 未学習の有効性を評価する方法,の3つの異なる課題を提示する。
- 参考スコア(独自算出の注目度): 35.23878330459424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes.
- Abstract(参考訳): 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。
しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。
強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。
トレーニング中、エージェントは環境の特徴を記憶する傾向があるため、プライバシに大きな懸念が生じる。
データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。
強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることに焦点を当てている。
この特異な特徴は3つの異なる課題を提示する。
1)環境の未学習スキームの提案方法
2 残留環境におけるエージェントの性能低下を回避する方法、及び
3)未学習の有効性を評価する方法。
これらの課題に対処するために,2つの強化アンラーニング手法を提案する。
第1の方法は、エージェントが以前取得した知識を徐々に消し去ることを目的とした、十進的強化学習に基づいている。
第2の方法は環境中毒攻撃を利用しており、エージェントは学習されていない環境を取り除くために、新しい、誤った知識を学ぶことを奨励する。
特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。
関連論文リスト
- Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - Canaries and Whistles: Resilient Drone Communication Networks with (or
without) Deep Reinforcement Learning [2.659716195611713]
我々は、ドローンがサプライチェーン、製造中、そして悪意のあるソフトウェアに侵入された、困難なシナリオを考えます。
防衛戦略の学習ツールとしての多エージェント深層強化学習について検討する。
我々は最先端の専門家技術を提案し、深層強化学習エージェントに対するその優位性について検討する。
論文 参考訳(メタデータ) (2023-12-08T10:13:44Z) - A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services [31.347825826778276]
機械学習(ML)における未学習サービスによる潜在的な脅威を探究する。
オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。
その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-15T08:00:45Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。