Fugu-MT 論文翻訳(概要): Unleashing Vision-Language Semantics for Deepfake Video Detection

論文の概要: Unleashing Vision-Language Semantics for Deepfake Video Detection

arxiv url: http://arxiv.org/abs/2603.24454v1
Date: Wed, 25 Mar 2026 16:05:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.375089
Title: Unleashing Vision-Language Semantics for Deepfake Video Detection
Title（参考訳）: ディープフェイクビデオ検出のためのアンリーディングビジョン・ランゲージ・セマンティクス
Authors: Jiawen Zhu, Yunqi Miao, Xueyi Zhang, Jiankang Deng, Guansong Pang,
Abstract要約: ディープフェイクビデオ検出(DFD)研究は、事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。 VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。
参考スコア（独自算出の注目度）: 78.7562836979696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent Deepfake Video Detection (DFD) studies have demonstrated that pre-trained Vision-Language Models (VLMs) such as CLIP exhibit strong generalization capabilities in detecting artifacts across different identities. However, existing approaches focus on leveraging visual features only, overlooking their most distinctive strength -- the rich vision-language semantics embedded in the latent space. We propose VLAForge, a novel DFD framework that unleashes the potential of such cross-modal semantics to enhance model's discriminability in deepfake detection. This work i) enhances the visual perception of VLM through a ForgePerceiver, which acts as an independent learner to capture diverse, subtle forgery cues both granularly and holistically, while preserving the pretrained Vision-Language Alignment (VLA) knowledge, and ii) provides a complementary discriminative cue -- Identity-Aware VLA score, derived by coupling cross-modal semantics with the forgery cues learned by ForgePerceiver. Notably, the VLA score is augmented by an identity prior-informed text prompting to capture authenticity cues tailored to each identity, thereby enabling more discriminative cross-modal semantics. Comprehensive experiments on video DFD benchmarks, including classical face-swapping forgeries and recent full-face generation forgeries, demonstrate that our VLAForge substantially outperforms state-of-the-art methods at both frame and video levels. Code is available at https://github.com/mala-lab/VLAForge.
Abstract（参考訳）: 近年のDeepfake Video Detection (DFD) 研究は、CLIPのような事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。しかしながら、既存のアプローチでは、視覚的特徴のみを活用することに重点を置いており、最も独特な強みである、潜伏した空間に埋め込まれたリッチな視覚言語セマンティクスを見越している。 VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。この作品 i)VLMの視覚的知覚をForgePerceiverを通じて強化する。これは、事前訓練された視覚・言語アライメント(VLA)の知識を維持しつつ、多様で微妙な偽の手がかりをきめ細やかに捉える独立学習者として機能する。 i) ForgePerceiverが学習した偽のキューとクロスモーダルなセマンティクスを結合することで得られる、相補的な識別的キュー -- Identity-Aware VLAスコアを提供する。特に、VLAスコアは、各アイデンティティに合わせて調整された認証キューをキャプチャするよう促すアイデンティティ事前インフォームドテキストによって強化され、より差別的なクロスモーダルセマンティクスを可能にする。従来の顔スワッピングフォージェリーや最近のフルフェイス生成フォージェリーなど、ビデオDFDベンチマークに関する総合的な実験は、VLAForgeがフレームレベルとビデオレベルの両方で最先端の手法を大幅に上回っていることを実証している。コードはhttps://github.com/mala-lab/VLAForgeで入手できる。

関連論文リスト

Enhancing Open-Vocabulary Object Detection through Multi-Level Fine-Grained Visual-Language Alignment [14.066865082355696]
オープン語彙オブジェクト検出(OVD)は、トレーニングセットに存在しない新しいクラスからのオブジェクトの識別を可能にする。視覚言語モデリングの最近の進歩は、OVDの著しい進歩をもたらした。本稿では,視覚言語アライメントのための特徴ピラミッドを改良した新しいフレームワークであるVisual-Language Detection (VLDet)を提案する。
論文参考訳（メタデータ） (2026-01-31T05:51:45Z)
Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文参考訳（メタデータ） (2025-11-21T21:36:48Z)
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文参考訳（メタデータ） (2025-10-24T10:29:31Z)
HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。 HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文参考訳（メタデータ） (2025-07-28T15:09:52Z)
MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。 EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。 VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2025-05-04T06:58:21Z)
PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution [36.409362073662685]
ゼロショットディープフェイク属性(ZS-DFA)のための動的コントラスト学習法(PVLM)を用いた新しい構文認識型視覚言語モデルを提案する。具体的には、拡散のような未確認の先進発電機に対するディープフェイク属性の属性性能を評価するために、新規できめ細かいZS-DFAベンチマークを実施している。また,動的コントラスト学習(PVLM)法を用いて,汎用的かつ多様な属性特徴を抽出する革新的な解析誘導型視覚言語モデルを提案する。
論文参考訳（メタデータ） (2025-04-19T01:11:46Z)
Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-07-31T09:23:57Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。