論文の概要: UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection
- arxiv url: http://arxiv.org/abs/2511.18983v1
- Date: Mon, 24 Nov 2025 10:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.166881
- Title: UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection
- Title(参考訳): UMCL:クロス圧縮レートディープフェイク検出のための一様生成マルチモーダルコントラスト学習
- Authors: Ching-Yi Lai, Chih-Yu Jian, Pei-Cheng Chuang, Chia-Ming Lee, Chih-Chung Hsu, Chiou-Ting Hsu, Chia-Wen Lin,
- Abstract要約: ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 37.37926854174864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In deepfake detection, the varying degrees of compression employed by social media platforms pose significant challenges for model generalization and reliability. Although existing methods have progressed from single-modal to multimodal approaches, they face critical limitations: single-modal methods struggle with feature degradation under data compression in social media streaming, while multimodal approaches require expensive data collection and labeling and suffer from inconsistent modal quality or accessibility in real-world scenarios. To address these challenges, we propose a novel Unimodal-generated Multimodal Contrastive Learning (UMCL) framework for robust cross-compression-rate (CCR) deepfake detection. In the training stage, our approach transforms a single visual modality into three complementary features: compression-robust rPPG signals, temporal landmark dynamics, and semantic embeddings from pre-trained vision-language models. These features are explicitly aligned through an affinity-driven semantic alignment (ASA) strategy, which models inter-modal relationships through affinity matrices and optimizes their consistency through contrastive learning. Subsequently, our cross-quality similarity learning (CQSL) strategy enhances feature robustness across compression rates. Extensive experiments demonstrate that our method achieves superior performance across various compression rates and manipulation types, establishing a new benchmark for robust deepfake detection. Notably, our approach maintains high detection accuracy even when individual features degrade, while providing interpretable insights into feature relationships through explicit alignment.
- Abstract(参考訳): ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
シングルモーダル手法はソーシャルメディアストリーミングにおけるデータ圧縮による特徴劣化に苦しむ一方、マルチモーダル手法は高価なデータ収集とラベル付けを必要とし、現実のシナリオでは一貫性のないモーダル品質やアクセシビリティに悩まされる。
これらの課題に対処するため、我々は、堅牢なクロス圧縮レート(CCR)ディープフェイク検出のための一様生成マルチモーダルコントラスト学習(UMCL)フレームワークを提案する。
トレーニング段階において,本手法は1つの視覚的モダリティを3つの相補的特徴に変換する: 圧縮損なうrPPG信号, 時間的ランドマークダイナミクス, 事前学習された視覚言語モデルからのセマンティック埋め込み。
これらの特徴はアフィニティ駆動型セマンティックアライメント(ASA)戦略を通じて明確に整列され、アフィニティ行列を通じてモーダル間の関係をモデル化し、コントラスト学習を通じて一貫性を最適化する。
その後、我々のクロス品質類似性学習(CQSL)戦略は、圧縮速度における特徴の堅牢性を高める。
大規模実験により, 種々の圧縮速度および操作タイプにまたがる性能が向上し, 強靭な深度検出のための新しいベンチマークが確立された。
提案手法は,個々の特徴が劣化しても高い検出精度を維持しつつ,明示的なアライメントによる特徴関係の解釈可能な洞察を提供する。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。
既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。
この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-30T10:26:04Z) - Bridging Diversity and Uncertainty in Active learning with Self-Supervised Pre-Training [21.57943896942296]
本研究は,能動学習における多様性に基づく,不確実性に基づくサンプリング戦略の統合について論じる。
我々は,コールドスタート問題を軽減し,さまざまなデータレベルの強いパフォーマンスを維持しつつ,TCMという単純な手法を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:18:24Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。