論文の概要: VoD: Learning Volume of Differences for Video-Based Deepfake Detection
- arxiv url: http://arxiv.org/abs/2503.07607v1
- Date: Mon, 10 Mar 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:03.390733
- Title: VoD: Learning Volume of Differences for Video-Based Deepfake Detection
- Title(参考訳): VoD:ビデオベースディープフェイク検出のための差分学習量
- Authors: Ying Xu, Marius Pedersen, Kiran Raja,
- Abstract要約: 本稿では,新しいDeepfake detention framework, Volume of differences (VoD)を紹介する。
VoDは連続するビデオフレーム間の時間的および空間的不整合を利用して検出精度を向上させるように設計されている。
我々は、よく知られたDeepfakeデータセット上で、データセット内およびクロスデータセットテストシナリオを用いてアプローチを評価した。
- 参考スコア(独自算出の注目度): 9.407035514709293
- License:
- Abstract: The rapid development of deep learning and generative AI technologies has profoundly transformed the digital contact landscape, creating realistic Deepfake that poses substantial challenges to public trust and digital media integrity. This paper introduces a novel Deepfake detention framework, Volume of Differences (VoD), designed to enhance detection accuracy by exploiting temporal and spatial inconsistencies between consecutive video frames. VoD employs a progressive learning approach that captures differences across multiple axes through the use of consecutive frame differences (CFD) and a network with stepwise expansions. We evaluate our approach with intra-dataset and cross-dataset testing scenarios on various well-known Deepfake datasets. Our findings demonstrate that VoD excels with the data it has been trained on and shows strong adaptability to novel, unseen data. Additionally, comprehensive ablation studies examine various configurations of segment length, sampling steps, and intervals, offering valuable insights for optimizing the framework. The code for our VoD framework is available at https://github.com/xuyingzhongguo/VoD.
- Abstract(参考訳): ディープラーニングと生成AI技術の急速な発展は、デジタルコンタクトのランドスケープを大きく変え、公共の信頼とデジタルメディアの整合性に重大な課題をもたらす現実的なDeepfakeを生み出した。
本稿では,連続するビデオフレーム間の時間的および空間的不整合を利用した検出精度の向上を目的とした,新しいDeepfake detention framework, Volume of differences (VoD)を提案する。
VoDは、連続フレーム差分(CFD)と段階的に拡張されたネットワークを用いて、複数の軸間の差分をキャプチャするプログレッシブラーニングアプローチを採用している。
我々は、よく知られたDeepfakeデータセット上で、データセット内およびクロスデータセットテストシナリオを用いてアプローチを評価した。
以上の結果から,VoDはトレーニングしたデータに優れ,新規で目に見えないデータに強い適応性を示すことがわかった。
さらに、包括的アブレーション研究は、セグメント長、サンプリングステップ、間隔の様々な構成を調査し、フレームワークを最適化するための貴重な洞察を提供する。
VoDフレームワークのコードはhttps://github.com/xuyingzhongguo/VoD.comで公開されている。
関連論文リスト
- Investigating Memorization in Video Diffusion Models [58.70363256771246]
画像生成やビデオ生成に広く用いられている拡散モデルは、推論中にトレーニングデータを記憶し再生するリスクという、重大な制限に直面している。
まず,VDM(Content memorization and Motion memorization)の2種類の記憶を現実的に定義する。
次に、VDMにおけるコンテンツと動きの記憶を別々に評価するために特別に設計された新しい指標を導入する。
論文 参考訳(メタデータ) (2024-10-29T02:34:06Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - FutureDepth: Learning to Predict the Future Improves Video Depth Estimation [46.421154770321266]
FutureDepthは、マルチフレームとモーションキューを暗黙的に活用して深度推定を改善するビデオ深度推定手法である。
本論文では,FutureDepthがベースラインモデルを大幅に改善し,既存のビデオ深度推定法より優れ,新しい最先端(SOTA)の精度が設定できることを示す。
論文 参考訳(メタデータ) (2024-03-19T17:55:22Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。