論文の概要: When and Where do Data Poisons Attack Textual Inversion?
- arxiv url: http://arxiv.org/abs/2507.10578v3
- Date: Mon, 28 Jul 2025 05:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.95813
- Title: When and Where do Data Poisons Attack Textual Inversion?
- Title(参考訳): データポゾンはいつ、どこでテキスト・インバージョンを攻撃するのか?
- Authors: Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur, Adams Kong,
- Abstract要約: 毒殺攻撃は拡散モデル(DM)の堅牢性に重大な課題をもたらす
本稿では,3つのキーコンポーネントからなる新しい防御機構であるセーフゾーントレーニング(SZT)を提案する。
SZTは、全ての中毒攻撃に対するTIの堅牢性を大幅に向上させ、事前に公表された防御以上の生成品質を向上させる。
- 参考スコア(独自算出の注目度): 0.055923945039144905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poisoning attacks pose significant challenges to the robustness of diffusion models (DMs). In this paper, we systematically analyze when and where poisoning attacks textual inversion (TI), a widely used personalization technique for DMs. We first introduce Semantic Sensitivity Maps, a novel method for visualizing the influence of poisoning on text embeddings. Second, we identify and experimentally verify that DMs exhibit non-uniform learning behavior across timesteps, focusing on lower-noise samples. Poisoning attacks inherit this bias and inject adversarial signals predominantly at lower timesteps. Lastly, we observe that adversarial signals distract learning away from relevant concept regions within training data, corrupting the TI process. Based on these insights, we propose Safe-Zone Training (SZT), a novel defense mechanism comprised of 3 key components: (1) JPEG compression to weaken high-frequency poison signals, (2) restriction to high timesteps during TI training to avoid adversarial signals at lower timesteps, and (3) loss masking to constrain learning to relevant regions. Extensive experiments across multiple poisoning methods demonstrate that SZT greatly enhances the robustness of TI against all poisoning attacks, improving generative quality beyond prior published defenses. Code: www.github.com/JStyborski/Diff_Lab Data: www.github.com/JStyborski/NC10
- Abstract(参考訳): 毒殺攻撃は拡散モデル(DM)の堅牢性に重大な課題をもたらす。
本稿では,DMのパーソナライズ技術であるテキスト・インバージョン(TI)をいつ,どこで攻撃するかを系統的に分析する。
最初にセマンティック感性マップ(Semantic Sensitivity Maps)を紹介した。
第2に,低雑音サンプルに着目して,DMが時間経過とともに一様でない学習行動を示すことを同定し,実験的に検証した。
中毒攻撃はこのバイアスを継承し、低いタイミングで主に敵の信号を注入する。
最後に、相手信号がトレーニングデータ内の関連する概念領域から学習を逸脱し、TIプロセスが破壊されるのを観察する。
これらの知見に基づいて,(1)高頻度の毒信号の弱化のためのJPEG圧縮,(2)低速度での敵信号回避のためのTIトレーニング中の高タイムステップの制限,(3)学習を関連領域に制限するための損失マスキングの3つの重要な要素からなる新しい防御機構であるSafe-Zone Training (SZT)を提案する。
複数の毒殺法にわたる広範囲な実験により、SZTは全ての毒殺攻撃に対するTIの堅牢性を大幅に向上し、事前に公表された防御以上の生成品質を向上させることが示されている。
コード:www.github.com/JStyborski/Diff_Lab Data: www.github.com/JStyborski/NC10
関連論文リスト
- PoisonCatcher: Revealing and Identifying LDP Poisoning Attacks in IIoT [13.68394346583211]
ローカル微分プライバシー(LDP)は、軽量で分散化されスケーラブルであるため、産業用IoT(Industrial Internet of Things)で広く採用されている。
本研究は,資源豊富なアグリゲータにおけるIIoTに対するLDP中毒防御法を提案する。
論文 参考訳(メタデータ) (2024-12-20T09:26:50Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Hide in Thicket: Generating Imperceptible and Rational Adversarial
Perturbations on 3D Point Clouds [62.94859179323329]
3Dポイントクラウド分類のための点操作に基づくアドリアック手法により、3Dモデルの脆弱性を明らかにした。
そこで本研究では,2段階の攻撃領域探索を行うHT-ADV法を提案する。
我々は,良性再サンプリングと良性剛性変換を用いることで,不受容性への犠牲がほとんどなく,身体的敵意の強さをさらに高めることができることを示唆する。
論文 参考訳(メタデータ) (2024-03-08T12:08:06Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models [19.140908259968302]
我々は、BadNetsのようなデータ中毒法がDMによって直接的に生成を劣化させるかどうか検討する。
BadNetsのようなデータ中毒攻撃は、DMが誤画像を生成するのに依然として有効であることを示す。
被毒DMはトリガーの割合が増加しており、これはトリガー増幅と呼ばれる現象である」
論文 参考訳(メタデータ) (2023-11-04T11:00:31Z) - APBench: A Unified Benchmark for Availability Poisoning Attacks and
Defenses [21.633448874100004]
APBenchは、敵の毒殺攻撃の有効性を評価するためのベンチマークである。
APBenchは9つの最先端のアベイラビリティ・アベイラビリティ・アタック、8つの防御アルゴリズム、および4つの従来のデータ拡張技術で構成されている。
われわれの結果は、個人のプライバシーを守るために、既存の攻撃が不適切であることを明らかにしている。
論文 参考訳(メタデータ) (2023-08-07T02:30:47Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。