論文の概要: Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation
- arxiv url: http://arxiv.org/abs/2506.01591v1
- Date: Mon, 02 Jun 2025 12:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.37357
- Title: Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation
- Title(参考訳): 沈黙は黄金である: LDMに基づくトーキングヘッド生成における音声制御の多元化のための逆例の活用
- Authors: Yuan Gan, Jiaxu Miao, Yunze Wang, Yi Yang,
- Abstract要約: 肖像画のプライバシーを積極的に保護する2段階の手法を提案する。
まず,音声合成における音声制御を無視するために,Nullification Losが提案される。
第2に, 逆潜伏特性を最適化し, 頑健な摂動を発生させるため, LDMの抗浄化損失を適用した。
- 参考スコア(独自算出の注目度): 24.062992221289505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in talking-head animation based on Latent Diffusion Models (LDM) enable the creation of highly realistic, synchronized videos. These fabricated videos are indistinguishable from real ones, increasing the risk of potential misuse for scams, political manipulation, and misinformation. Hence, addressing these ethical concerns has become a pressing issue in AI security. Recent proactive defense studies focused on countering LDM-based models by adding perturbations to portraits. However, these methods are ineffective at protecting reference portraits from advanced image-to-video animation. The limitations are twofold: 1) they fail to prevent images from being manipulated by audio signals, and 2) diffusion-based purification techniques can effectively eliminate protective perturbations. To address these challenges, we propose Silencer, a two-stage method designed to proactively protect the privacy of portraits. First, a nullifying loss is proposed to ignore audio control in talking-head generation. Second, we apply anti-purification loss in LDM to optimize the inverted latent feature to generate robust perturbations. Extensive experiments demonstrate the effectiveness of Silencer in proactively protecting portrait privacy. We hope this work will raise awareness among the AI security community regarding critical ethical issues related to talking-head generation techniques. Code: https://github.com/yuangan/Silencer.
- Abstract(参考訳): ラテント拡散モデル(LDM)に基づくトーキングヘッドアニメーションの進歩は、高度にリアルで同期化されたビデオの作成を可能にする。
これらのビデオは実際のものと区別がつかないため、詐欺、政治的操作、誤情報に対する潜在的な誤用のリスクが高まる。
したがって、これらの倫理的懸念に対処することは、AIセキュリティの急激な問題となっている。
近年の積極的防御研究は、肖像画に摂動を加えることでLCMモデルに対抗することに焦点を当てている。
しかし、これらの手法は、高度な画像-映像アニメーションから参照肖像画を保護するのに効果がない。
制限は2つある。
1)画像が音声信号で操作されることを防げず、
2)拡散による浄化技術は, 効果的に保護摂動を除去することができる。
これらの課題に対処するために,肖像画のプライバシーを積極的に保護する2段階の手法であるSilencerを提案する。
まず,音声合成における音声制御を無視するために,Nullification Losが提案される。
第2に, 逆潜伏特性を最適化し, 頑健な摂動を発生させるため, LDMの抗浄化損失を適用した。
広範囲にわたる実験は、肖像画のプライバシーを積極的に保護するSilencerの有効性を実証している。
この研究が、トーキングヘッドジェネレーション技術に関する倫理的問題に関して、AIセキュリティコミュニティの間で認識を高めてくれることを期待しています。
コード:https://github.com/yuangan/Silencer.com
関連論文リスト
- PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models [51.458089902581456]
特定の画像の悪質なパーソナライズを防ぐ新しいバックドアベースのアプローチであるPersGuardを紹介する。
我々の手法は既存の技術よりも優れており、プライバシーと著作権保護に対するより堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-22T09:47:55Z) - Anti-Reference: Universal and Immediate Defense Against Reference-Based Generation [24.381813317728195]
反参照は、参照ベースの生成技術によって引き起こされる脅威から画像を保護する新しい方法である。
本研究では,微調整に基づくカスタマイズ手法に対する共同攻撃を可能にする一元的損失関数を提案する。
提案手法は特定の転送攻撃能力を示し,グレーボックスモデルといくつかの商用APIの両方に効果的に挑戦する。
論文 参考訳(メタデータ) (2024-12-08T16:04:45Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing [93.45507533317405]
DiffusionGuardは、拡散ベースの画像編集モデルによる不正な編集に対する堅牢で効果的な防御方法である。
拡散過程の初期段階をターゲットとした対向雑音を発生させる新しい目的を提案する。
また,テスト期間中の各種マスクに対するロバスト性を高めるマスク強化手法も導入した。
論文 参考訳(メタデータ) (2024-10-08T05:19:19Z) - FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge [13.43804949744336]
FlowMurはステルスで実用的なオーディオバックドア攻撃で、限られた知識で起動できる。
2つのデータセットで実施された実験は、FlowMurがデジタルと物理の両方で高い攻撃性能を達成することを示した。
論文 参考訳(メタデータ) (2023-12-15T10:26:18Z) - Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass Safety Filters of Text-to-Image Models [1.5408065585641535]
我々は、最先端TTIモデルの安全フィルタを回避するために、Divide-and-Conquer Attackを導入する。
我々はLLMを効果的に誘導するアタック・ヘルパーを設計し、非倫理的な描画意図を曖昧な記述に分解する。
本研究は,手工芸法や反復的TTIモデルクエリよりも,より深刻なセキュリティ上の意味を持つ。
論文 参考訳(メタデータ) (2023-12-12T10:04:43Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - A Dual Stealthy Backdoor: From Both Spatial and Frequency Perspectives [17.024143511814245]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす
バックドアモデルは、よく設計されたトリガーが埋め込まれた入力に対して、任意の(ターゲット化された)誤った予測を行う。
本研究では,空間領域と周波数領域の両方におけるトリガの視認性を同時に考慮した,DUBAと呼ばれる2次元ステルスBAckdoor攻撃法を提案する。
論文 参考訳(メタデータ) (2023-07-03T12:28:44Z) - Towards Prompt-robust Face Privacy Protection via Adversarial Decoupling
Augmentation Framework [20.652130361862053]
顔認識保護アルゴリズムの防御性能を高めるために,Adversarial Decoupling Augmentation Framework (ADAF)を提案する。
ADAFは、様々な攻撃プロンプトに対する防御安定のために、多レベルテキスト関連の拡張を導入している。
論文 参考訳(メタデータ) (2023-05-06T09:00:50Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。