論文の概要: LAVA: Layered Audio-Visual Anti-tampering Watermarking for Robust Deepfake Detection and Localization
- arxiv url: http://arxiv.org/abs/2604.23957v1
- Date: Mon, 27 Apr 2026 02:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.698494
- Title: LAVA: Layered Audio-Visual Anti-tampering Watermarking for Robust Deepfake Detection and Localization
- Title(参考訳): LAVA:ロバストディープフェイク検出と位置検出のための層状オーディオ・ビジュアルアンチタンパリング透かし
- Authors: Bokang Zeng, Zheng Gao, Xiaoyu Li, Xiaoyan Feng, Jiaojiao Jiang,
- Abstract要約: プロアクティブなウォーターマーキングは、ショートフォームビデオにおけるディープフェイクタンパーの検出とローカライゼーションに有望なアプローチを提供する。
既存の透かし法は、しばしば音声と視覚的証拠を分離し、透かし信号が現実の劣化の下で信頼性を維持していると仮定する。
本研究では,ディープフェイクタンパ検出と局所化のためのキャリブレーション対応オーディオ視覚透かし融合フレームワークであるLayered Audio-Visual Anti-tampering Watermarking (LAVA)を提案する。
- 参考スコア(独自算出の注目度): 6.234219482022044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proactive watermarking offers a promising approach for deepfake tamper detection and localization in short-form videos. However, existing methods often decouple audio and visual evidence and assume that watermark signals remain reliable under real-world degradations, making tamper localization vulnerable to multimodal misalignment and compression distortions. Moreover, existing semi-fragile visual watermarking methods often degrade significantly under codec compression because their embedding bands overlap with compression-sensitive frequency regions. To address these limitations, we propose Layered Audio-Visual Anti-tampering Watermarking (LAVA), a calibration-aware audio-visual watermark fusion framework for deepfake tamper detection and localization. LAVA leverages cross-modal watermark fusion and calibration-aware alignment to preserve consistent and reliable tamper evidence under compression and audio-visual asynchrony, enabling robust tamper localization. Extensive experiments demonstrate that LAVA achieves near-perfect detection performance (AP = 0.999), remains robust to compression and multimodal misalignment, and significantly improves tamper localization reliability over existing audio-visual fusion baselines.
- Abstract(参考訳): プロアクティブなウォーターマーキングは、ショートフォームビデオにおけるディープフェイクタンパーの検出とローカライゼーションに有望なアプローチを提供する。
しかし、既存の手法は、しばしば音声と視覚的証拠を分離し、透かし信号が現実の劣化の下で信頼性を維持していると仮定し、マルチモーダルなずれや圧縮歪みに対してタンパーの局所化を脆弱にする。
さらに,従来の半フレジブルな視覚透かし方式は,圧縮感度の周波数領域と重なり合うため,コーデック圧縮下で著しく劣化することが多い。
これらの制約に対処するため、我々は、ディープフェイクタンパ検出とローカライゼーションのためのキャリブレーション対応オーディオ視覚透かし融合フレームワークであるLayered Audio-Visual Anti-tampering Watermarking (LAVA)を提案する。
LAVAはクロスモーダルな透かし融合とキャリブレーション対応のアライメントを利用して、圧縮とオーディオと視覚の同期の下で一貫した信頼性のあるタンパの証拠を保存し、堅牢なタンパの局所化を可能にする。
LAVAがほぼ完全な検出性能(AP = 0.999)を達成し、圧縮やマルチモーダルな修正に頑健であり、既存のオーディオ-視覚融合ベースラインよりもタンパローカライゼーションの信頼性を著しく向上することを示した。
関連論文リスト
- High-Fidelity Face Content Recovery via Tamper-Resilient Versatile Watermarking [27.912549423920243]
著作権保護,画素レベルの操作ローカライゼーション,高忠実度顔コンテンツリカバリを統一する多目的透かしフレームワークであるVeriFiを提案する。
画像の特徴を復号化信号に関連づけることで,局所化固有のアーティファクトを埋め込むことなく,微粒な局所化を実現し,また,遅延空間混合とシームレスなブレンディングを組み合わせたAIGCアタックシミュレータを導入し,現実的なディープフェイクパイプラインへの堅牢性を向上させる。
論文 参考訳(メタデータ) (2026-03-25T05:02:48Z) - Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection [53.789057575175065]
領域認識型prompt Augmentation(RAPTA)とAttention-Driven Multimodal Copy Detection(ADMCD)を示す。
RAPTAはオブジェクト検出器を使用して、正常な領域を見つけ、それらを意味論的に接地したプロンプトの変種に変換する。
ADMCDは、ローカルパッチ、グローバルセマンティック、テクスチャキューを軽量トランスフォーマーで集約し、融合表現を生成する。
実験により、RAPTAは高い合成品質を維持しながら過度な適合を減少させ、ADMCDはコピーを確実に検出し、単一モードの指標より優れることが示された。
論文 参考訳(メタデータ) (2026-03-13T15:16:27Z) - Self-Supervised Compression and Artifact Correction for Streaming Underwater Imaging Sonar [14.023965177100239]
実時間撮像ソナーは、光センシングが信頼性の低い環境下での水中監視において重要なツールとなっている。
クリーンノイズペアや合成仮定を使わずに圧縮とアーティファクトの補正を共同で行う自己教師型フレームワークSCOPEを提案する。
SCOPEは太平洋岸北西部の3つの河川に数ヶ月間展開され、野生でのリアルタイムサケの列挙と環境モニタリングを支援している。
論文 参考訳(メタデータ) (2025-11-17T21:19:15Z) - AWARE: Audio Watermarking with Adversarial Resistance to Edits [0.0]
AWARE(Audio Watermarking with Adrial Resistance to Edits)は、アタック・リバーサ・スタックや手作りの微分可能な歪みへの依存を避けるアプローチである。
埋め込みは、レベルプロポーショナル予算の下で、時間周波数領域の逆最適化によって得られる。
AWAREは、PESQ/STOI (High Audio Quality and Speech Intelligibility) と、様々なオーディオ編集においてBERを一貫して低くする。
論文 参考訳(メタデータ) (2025-10-20T13:10:52Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [76.98973481600002]
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
提案手法は、4つのキーモジュールからなる: 生成品質を保ちつつ、著作権と局所化の透かしを潜伏空間に埋め込むためのデュアルマークジョイントサンプリング (DMJS) アルゴリズム。
実験結果から,TAG-WMは歪み下においても,改質性および局所化能力の両面において最先端性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。