Fugu-MT 論文翻訳(概要): Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable

論文の概要: Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable

arxiv url: http://arxiv.org/abs/2405.00466v1
Date: Wed, 1 May 2024 12:03:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 15:47:41.664993
Title: Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable
Title（参考訳）: 微細な拡散モデルをよりトレーサブルにする遅延層
Authors: Haozhe Liu, Wentian Zhang, Bing Li, Bernard Ghanem, Jürgen Schmidhuber,
Abstract要約: 新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
参考スコア（独自算出の注目度）: 70.77600345240867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundational generative models should be traceable to protect their owners and facilitate safety regulation. To achieve this, traditional approaches embed identifiers based on supervisory trigger-response signals, which are commonly known as backdoor watermarks. They are prone to failure when the model is fine-tuned with nontrigger data. Our experiments show that this vulnerability is due to energetic changes in only a few 'busy' layers during fine-tuning. This yields a novel arbitrary-in-arbitrary-out (AIAO) strategy that makes watermarks resilient to fine-tuning-based removal. The trigger-response pairs of AIAO samples across various neural network depths can be used to construct watermarked subpaths, employing Monte Carlo sampling to achieve stable verification results. In addition, unlike the existing methods of designing a backdoor for the input/output space of diffusion models, in our method, we propose to embed the backdoor into the feature space of sampled subpaths, where a mask-controlled trigger function is proposed to preserve the generation performance and ensure the invisibility of the embedded backdoor. Our empirical studies on the MS-COCO, AFHQ, LSUN, CUB-200, and DreamBooth datasets confirm the robustness of AIAO; while the verification rates of other trigger-based methods fall from ~90% to ~70% after fine-tuning, those of our method remain consistently above 90%.
Abstract（参考訳）: 基本生成モデルは、所有者を保護し、安全規制を促進するために追跡可能であるべきである。これを実現するため、従来のアプローチでは、バックドア透かしと呼ばれる、監督的なトリガー応答信号に基づいて識別子を埋め込んでいる。モデルは非トリガーデータで微調整されるため、失敗する傾向があります。我々の実験によると、この脆弱性は微調整中にわずか数層の'ビジネス'層にエネルギー的変化があったためである。これにより、任意の任意離着陸(AIAO)戦略が生まれ、微調整による除去に対する透かしの耐性が向上する。様々なニューラルネットワーク深度にわたるAIAOサンプルのトリガー応答対は、透かしを施したサブパスを構築するために使用することができ、モンテカルロサンプリングを用いて安定した検証結果が得られる。また,既存の拡散モデルの入出力空間のバックドア設計法とは異なり,本手法では,マスク制御トリガ関数が生成性能を保ち,組込みバックドアの可視性を確保するために,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOのロバスト性が確認された。

関連論文リスト

DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。 triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文参考訳（メタデータ） (2025-07-30T16:31:13Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2024-11-24T20:56:18Z)
CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。 CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文参考訳（メタデータ） (2024-11-18T07:52:12Z)
TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。 TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文参考訳（メタデータ） (2024-09-09T03:02:16Z)
IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文参考訳（メタデータ） (2024-05-16T03:19:52Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-10T07:25:06Z)
Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。安全で堅牢なバックドア型透かし注入法を提案する。我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文参考訳（メタデータ） (2023-09-04T19:58:35Z)
Reversible Quantization Index Modulation for Static Deep Neural Network Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文参考訳（メタデータ） (2023-05-29T04:39:17Z)
Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文参考訳（メタデータ） (2023-03-27T07:10:37Z)
Diffusion Denoising Process for Perceptron Bias in Out-of-distribution Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。 DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。 CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T08:45:08Z)
DAAIN: Detection of Anomalous and Adversarial Input using Normalizing Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文参考訳（メタデータ） (2021-05-30T22:07:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。