論文の概要: ZIUM: Zero-Shot Intent-Aware Adversarial Attack on Unlearned Models
- arxiv url: http://arxiv.org/abs/2507.21985v1
- Date: Tue, 29 Jul 2025 16:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.750567
- Title: ZIUM: Zero-Shot Intent-Aware Adversarial Attack on Unlearned Models
- Title(参考訳): Zium: 未学習モデルに対するゼロショットのインテント・アウェア・アドバサリアタック
- Authors: Hyun Jun Yook, Ga San Jhun, Jae Hyun Cho, Min Jeon, Donghyun Kim, Tae Hyung Kim, Youn Kyu Lee,
- Abstract要約: 敵対的プロンプトは、未学習のモデルを利用して、削除された概念を含むコンテンツを生成する。
ゼロショットインテントを意識した非学習モデルに対する敵攻撃であるZiumを提案する。
Ziumは、以前攻撃された未学習概念のさらなる最適化を必要とせず、ゼロショットの敵攻撃をサポートする。
- 参考スコア(独自算出の注目度): 4.6582927460321315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning (MU) removes specific data points or concepts from deep learning models to enhance privacy and prevent sensitive content generation. Adversarial prompts can exploit unlearned models to generate content containing removed concepts, posing a significant security risk. However, existing adversarial attack methods still face challenges in generating content that aligns with an attacker's intent while incurring high computational costs to identify successful prompts. To address these challenges, we propose ZIUM, a Zero-shot Intent-aware adversarial attack on Unlearned Models, which enables the flexible customization of target attack images to reflect an attacker's intent. Additionally, ZIUM supports zero-shot adversarial attacks without requiring further optimization for previously attacked unlearned concepts. The evaluation across various MU scenarios demonstrated ZIUM's effectiveness in successfully customizing content based on user-intent prompts while achieving a superior attack success rate compared to existing methods. Moreover, its zero-shot adversarial attack significantly reduces the attack time for previously attacked unlearned concepts.
- Abstract(参考訳): 機械学習(MU)は、ディープラーニングモデルから特定のデータポイントや概念を取り除き、プライバシーを強化し、センシティブなコンテンツ生成を防ぐ。
敵のプロンプトは、未学習のモデルを利用して、削除された概念を含むコンテンツを生成することができ、重大なセキュリティリスクを生じさせる。
しかし、既存の敵攻撃手法は、攻撃者の意図と一致したコンテンツを生成する上で依然として課題に直面しており、成功したプロンプトを特定するのに高い計算コストがかかる。
これらの課題に対処するため、ゼロショットのIntent-aware adversarial attack on Unlearned Modelsを提案する。
さらに、Ziumは、以前に攻撃された未学習概念のさらなる最適化を必要とせず、ゼロショットの敵攻撃をサポートする。
様々なMUシナリオで評価した結果,ユーザインテリジェントプロンプトに基づくコンテンツのカスタマイズに成功し,既存の手法に比べて優れた攻撃成功率を達成できた。
さらに、ゼロショット対逆攻撃は、以前に攻撃された未学習概念に対する攻撃時間を著しく短縮する。
関連論文リスト
- The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Erased but Not Forgotten: How Backdoors Compromise Concept Erasure [36.056298969999645]
我々は、新しい脅威モデル、Toxic Erasure(ToxE)を導入し、最近の未学習アルゴリズムがターゲットのバックドア攻撃によってどのように回避できるかを実証する。
明示的な内容の消去のために、ToxE攻撃は最大9倍の露出した身体部位を誘発し、disAは2.9倍の平均的な増加をもたらす。
論文 参考訳(メタデータ) (2025-04-29T16:13:06Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Adversary Aware Continual Learning [3.3439097577935213]
Adversaryは、テスト時に特定のタスクやクラスを意図的に忘れるように、少量の誤報をモデルに導入することができる。
我々は,攻撃者のバックドアパターンを人間には認識不能にすることで,攻撃者の主要な強みを隠蔽し,攻撃者の知覚不能パターンを超過する知覚的(強者)パターンを学習することを提案する。
提案手法は,攻撃者の目標タスク,攻撃者の目標クラス,攻撃者の許容できないパターンを知らずに,クラスインクリメンタル学習アルゴリズムの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-04-27T19:49:50Z) - Invisible Backdoor Attack with Dynamic Triggers against Person
Re-identification [71.80885227961015]
個人再識別(ReID)は、広範囲の現実世界のアプリケーションで急速に進展しているが、敵攻撃の重大なリスクも生じている。
動的トリガー・インビジブル・バックドア・アタック(DT-IBA)と呼ばれる,ReIDに対する新たなバックドア・アタックを提案する。
本研究は,提案したベンチマークデータセットに対する攻撃の有効性と盗聴性を広範囲に検証し,攻撃に対する防御手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-11-20T10:08:28Z) - Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face
Recognition [111.1952945740271]
Adv-Attribute (Adv-Attribute) は、顔認証に対する不明瞭で伝達可能な攻撃を生成するように設計されている。
FFHQとCelebA-HQデータセットの実験は、提案されたAdv-Attributeメソッドが最先端の攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2022-10-13T09:56:36Z) - Untargeted, Targeted and Universal Adversarial Attacks and Defenses on
Time Series [0.0]
我々は,UCR時系列データセットに対して,対象外,対象外,普遍的敵攻撃を行った。
これらの攻撃に対して,ディープラーニングに基づく時系列分類モデルが脆弱であることを示す。
また、トレーニングデータのごく一部しか必要としないため、普遍的敵攻撃は優れた一般化特性を有することを示す。
論文 参考訳(メタデータ) (2021-01-13T13:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。