論文の概要: SyncBreaker:Stage-Aware Multimodal Adversarial Attacks on Audio-Driven Talking Head Generation
- arxiv url: http://arxiv.org/abs/2604.08405v1
- Date: Thu, 09 Apr 2026 16:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.013164
- Title: SyncBreaker:Stage-Aware Multimodal Adversarial Attacks on Audio-Driven Talking Head Generation
- Title(参考訳): SyncBreaker:オーディオ駆動型トーキングヘッド生成における段階的マルチモーダルアタック
- Authors: Wenli Zhang, Xianglong Shi, Sirui Zhao, Xinqi Chen, Guo Cheng, Yifan Xu, Tong Xu, Yong Liao,
- Abstract要約: 拡散に基づく音声駆動音声ヘッド生成は、リアルなポートレートアニメーションを可能にするが、詐欺や誤報などの誤用の危険性ももたらしている。
我々は,モダリティ固有の知覚的制約の下で,ポートレートとオーディオ入力を共同で摂動する,段階認識型マルチモーダル保護フレームワークSyncBreakerを提案する。
- 参考スコア(独自算出の注目度): 20.879555419264108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based audio-driven talking-head generation enables realistic portrait animation, but also introduces risks of misuse, such as fraud and misinformation. Existing protection methods are largely limited to a single modality, and neither image-only nor audio-only attacks can effectively suppress speech-driven facial dynamics. To address this gap, we propose SyncBreaker, a stage-aware multimodal protection framework that jointly perturbs portrait and audio inputs under modality-specific perceptual constraints. Our key contributions are twofold. First, for the image stream, we introduce nullifying supervision with Multi-Interval Sampling (MIS) across diffusion stages to steer the generation toward the static reference portrait by aggregating guidance from multiple denoising intervals. Second, for the audio stream, we propose Cross-Attention Fooling (CAF), which suppresses interval-specific audio-conditioned cross-attention responses. Both streams are optimized independently and combined at inference time to enable flexible deployment. We evaluate SyncBreaker in a white-box proactive protection setting. Extensive experiments demonstrate that SyncBreaker more effectively degrades lip synchronization and facial dynamics than strong single-modality baselines, while preserving input perceptual quality and remaining robust under purification. Code: https://github.com/kitty384/SyncBreaker.
- Abstract(参考訳): 拡散に基づく音声駆動音声ヘッド生成は、リアルなポートレートアニメーションを可能にするが、詐欺や誤報などの誤用の危険性ももたらしている。
既存の保護方法は、主に単一のモダリティに制限されており、画像のみの攻撃も音声のみの攻撃も、音声駆動の顔力学を効果的に抑制できない。
このギャップに対処するために、SyncBreakerを提案する。これは、段階的に認識されるマルチモーダル保護フレームワークで、モダリティ固有の知覚的制約の下で、ポートレートとオーディオ入力を共同で摂動する。
私たちの重要な貢献は2つです。
まず、画像ストリームに対して、複数のデノベーション間隔からのガイダンスを集約することにより、静的な参照ポートレートに向けて生成を操るために、拡散ステージ間でのマルチインターバルサンプリング(MIS)による無効化監視を導入する。
第2に、音声ストリームに対して、間隔指定音声条件のクロスアテンション応答を抑制するクロスアテンション・フーリング(CAF)を提案する。
どちらのストリームも独立して最適化され、推論時に組み合わせてフレキシブルなデプロイメントを可能にする。
我々は、SyncBreakerをホワイトボックスのプロアクティブプロテクト・プロテクト・セッティングで評価した。
大規模な実験により、SyncBreakerは、強い単一モダリティベースラインよりも、唇の同期と顔のダイナミックスをより効果的に低下させ、入力の知覚品質を保ち、精製下で頑健に維持することを示した。
コード:https://github.com/kitty384/SyncBreaker.com
関連論文リスト
- OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs [28.295585578439212]
EchoingPixelsは、現実世界のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークである。
これは、モダリティごとに固定予算を使うのではなく、オーディオ・ビジュアル・トークンの合計プールからトークンを減らします。
オリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-12-11T06:18:58Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。
KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。
以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文 参考訳(メタデータ) (2025-05-01T12:56:17Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。