論文の概要: Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2602.15903v1
- Date: Sat, 14 Feb 2026 09:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.381257
- Title: Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment
- Title(参考訳): 多変量ソフトブレンディングとCLIPに基づく画像テキストアライメントによるディープフェイクの検出
- Authors: Jingwei Li, Jiaxin Tong, Pengfei Wu,
- Abstract要約: 非常に現実的な顔の偽造の増殖は、堅牢な検出方法を必要とする。
既存のアプローチは、様々な偽造技術によって生成されたサンプル間の大きな分布シフトのために、限られた正確さと一般化の欠如に悩まされることが多い。
提案手法は,CLIPのマルチモーダルアライメント機能を利用して,微妙な偽の痕跡を捕捉する。
- 参考スコア(独自算出の注目度): 4.34685509565816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of highly realistic facial forgeries necessitates robust detection methods. However, existing approaches often suffer from limited accuracy and poor generalization due to significant distribution shifts among samples generated by diverse forgery techniques. To address these challenges, we propose a novel Multivariate and Soft Blending Augmentation with CLIP-guided Forgery Intensity Estimation (MSBA-CLIP) framework. Our method leverages the multimodal alignment capabilities of CLIP to capture subtle forgery traces. We introduce a Multivariate and Soft Blending Augmentation (MSBA) strategy that synthesizes images by blending forgeries from multiple methods with random weights, forcing the model to learn generalizable patterns. Furthermore, a dedicated Multivariate Forgery Intensity Estimation (MFIE) module is designed to explicitly guide the model in learning features related to varied forgery modes and intensities. Extensive experiments demonstrate state-of-the-art performance. On in-domain tests, our method improves Accuracy and AUC by 3.32\% and 4.02\%, respectively, over the best baseline. In cross-domain evaluations across five datasets, it achieves an average AUC gain of 3.27\%. Ablation studies confirm the efficacy of both proposed components. While the reliance on a large vision-language model entails higher computational cost, our work presents a significant step towards more generalizable and robust deepfake detection.
- Abstract(参考訳): 非常に現実的な顔の偽造の増殖は、堅牢な検出方法を必要とする。
しかし、既存の手法は、様々な偽造技術によって生成されたサンプル間の大きな分布シフトにより、精度が制限され、一般化が不十分な場合が多い。
これらの課題に対処するために,CLIP誘導フォージェリインテンシティ推定(MSBA-CLIP)フレームワークを用いた多変量およびソフトブレンディング拡張を提案する。
提案手法は,CLIPのマルチモーダルアライメント機能を利用して,微妙な偽の痕跡を捕捉する。
我々は,多変量およびソフトブレンディング拡張(MSBA)戦略を導入し,複数の手法をランダムな重み付けで組み合わせて画像合成を行い,モデルに一般化可能なパターンの学習を強制する。
さらに,多変量フォージェリインテンシティ推定(MFIE)モジュールは,多変量フォージェリインテンシティと多変量フォージェリインテンシティに関する学習機能において,モデルを明示的にガイドするように設計されている。
大規模な実験は最先端のパフォーマンスを示している。
ドメイン内テストでは,最良基準値に対してそれぞれ3.32\%,4.02\%の精度とAUCを改善する。
5つのデータセットにわたるクロスドメイン評価では、平均的なAUCゲインが3.27\%に達する。
アブレーション研究は、どちらの成分も有効であることを確認した。
大きな視覚言語モデルへの依存は高い計算コストを必要とするが、我々の研究はより一般化可能で堅牢なディープフェイク検出に向けて大きな一歩を踏み出した。
関連論文リスト
- MPA: Multimodal Prototype Augmentation for Few-Shot Learning [36.74394076733568]
少数のラベル付き例から新しいクラスを認識することを目的とした、いくつかのショット学習がポピュラーなタスクとなっている。
本稿では,MPA(Multi-Variant Semantic Enhancement, LMSE), Hierarchical Multi-View Augmentation (HMA), Adaptive Uncertain Class Absorber (AUCA)などの新しいフレームワークを提案する。
MPAは、ほとんどの設定で既存の最先端メソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-09T08:30:31Z) - UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection [37.37926854174864]
ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-24T10:56:22Z) - Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates [37.65554922794508]
偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。
我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-28T23:45:55Z) - MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection [3.5148549831413036]
農薬の正確な識別は、作物の保護に不可欠である。
ディープラーニングには先進的な害虫検出があるが、既存のアプローチのほとんどは、低レベルの視覚的特徴にのみ依存している。
論文 参考訳(メタデータ) (2025-05-05T08:10:22Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。