論文の概要: Revealing the Truth with ConLLM for Detecting Multi-Modal Deepfakes
- arxiv url: http://arxiv.org/abs/2601.17530v1
- Date: Sat, 24 Jan 2026 17:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.905119
- Title: Revealing the Truth with ConLLM for Detecting Multi-Modal Deepfakes
- Title(参考訳): マルチモーダルディープフェイク検出のためのConLLMによる真実の解明
- Authors: Gautam Siddharth Kashyap, Harsh Joshi, Niharika Jain, Ebad Shabbir, Jiechao Gao, Nipun Joshi, Usman Naseem,
- Abstract要約: ConLLMは、堅牢なマルチモーダルディープフェイク検出のためのハイブリッドフレームワークである。
オーディオディープフェイクEERを最大50%削減し、ビデオの精度を最大8%改善し、オーディオ視覚タスクで約9%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 16.165111143799617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of deepfake technology poses a severe threat to social and political stability by enabling hyper-realistic synthetic media capable of manipulating public perception. However, existing detection methods struggle with two core limitations: (1) modality fragmentation, which leads to poor generalization across diverse and adversarial deepfake modalities; and (2) shallow inter-modal reasoning, resulting in limited detection of fine-grained semantic inconsistencies. To address these, we propose ConLLM (Contrastive Learning with Large Language Models), a hybrid framework for robust multimodal deepfake detection. ConLLM employs a two-stage architecture: stage 1 uses Pre-Trained Models (PTMs) to extract modality-specific embeddings; stage 2 aligns these embeddings via contrastive learning to mitigate modality fragmentation, and refines them using LLM-based reasoning to address shallow inter-modal reasoning by capturing semantic inconsistencies. ConLLM demonstrates strong performance across audio, video, and audio-visual modalities. It reduces audio deepfake EER by up to 50%, improves video accuracy by up to 8%, and achieves approximately 9% accuracy gains in audio-visual tasks. Ablation studies confirm that PTM-based embeddings contribute 9%-10% consistent improvements across modalities.
- Abstract(参考訳): ディープフェイク技術の急速な発展は、大衆の認識を操作できる超現実的な合成メディアを可能にすることによって、社会的および政治的安定性に深刻な脅威をもたらす。
しかし,既存の検出法では,(1) 様相の断片化,(2) 様相・逆相の多様性,(2) 様相の微妙な意味的不整合を限定的に検出する,という2つの限界に悩まされている。
本研究では,マルチモーダル深度検出のためのハイブリッドフレームワークであるConLLM(Contrastive Learning with Large Language Models)を提案する。
ConLLMは2段階アーキテクチャを採用している: ステージ1は、モダリティ固有の埋め込みを抽出するために事前訓練モデル(PTM)を使用し、ステージ2は、対照的な学習を通じてこれらの埋め込みを調整し、モダリティの断片化を軽減する。
ConLLMは、オーディオ、ビデオ、オーディオ・ヴィジュアル・モダリティにまたがって強力なパフォーマンスを示す。
オーディオディープフェイクEERを最大50%削減し、ビデオの精度を最大8%改善し、オーディオ視覚タスクで約9%の精度向上を実現している。
アブレーション研究は、PTMベースの埋め込みがモダリティ全体の9%から10%の改善に寄与していることを確認した。
関連論文リスト
- Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection [19.80016468034245]
GateFusionは、強力な事前訓練された単調エンコーダと階層型Gated Fusion Decoder(HiGate)を組み合わせた新しいアーキテクチャである。
HiGateは、Transformerのバックボーンの複数の層で、1つのモードからもう1つのモードにコンテキスト特徴を適応的に注入することで、プログレッシブで多次元の融合を可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:56:52Z) - UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection [37.37926854174864]
ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-24T10:56:22Z) - Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。
マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。
我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文 参考訳(メタデータ) (2025-11-11T09:33:39Z) - A Hybrid Deep Learning and Forensic Approach for Robust Deepfake Detection [0.0]
既存のディープフェイク検出手法は、一般化や歪みに対する脆弱性の低いディープラーニングや、解釈可能なが新しい操作技術に制限される法医学的な分析に頼っている。
本研究では,雑音残差,JPEG圧縮トレース,周波数領域記述子などの法医学的特徴を融合したハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:52Z) - Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake Detection [4.849608823153888]
マルチモーダル検出法は、モダリティ間の不均衡学習によって制限されている。
本稿では,モダリティの対立を緩和し,無視を改善するために,MACB-DF(Audio-Visual Joint Learning Method)を提案する。
提案手法は,従来のベストパフォーマンス手法に比べて,ACCスコアの8.0%と7.7%の絶対的な改善を達成し,優れたクロスデータセット一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-19T11:01:49Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。