論文の概要: SynthForensics: A Multi-Generator Benchmark for Detecting Synthetic Video Deepfakes
- arxiv url: http://arxiv.org/abs/2602.04939v1
- Date: Wed, 04 Feb 2026 16:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.564479
- Title: SynthForensics: A Multi-Generator Benchmark for Detecting Synthetic Video Deepfakes
- Title(参考訳): SynthForensics: 合成ビデオディープフェイク検出のためのマルチジェネレータベンチマーク
- Authors: Roberto Leotta, Salvatore Alfio Sambataro, Claudio Vittorio Ragaglia, Mirko Casu, Yuri Petralia, Francesco Guarnera, Luca Guarnera, Sebastiano Battiato,
- Abstract要約: われわれはSynthForensicsを導入し、人工的なビデオディープフェイクを検知する最初の人間中心のベンチマークを私たちの知る限りで紹介する。
ベンチマークは、アーキテクチャ的に異なる、最先端のオープンソースT2Vモデルの6,815のユニークなビデオで構成されている。
AUCの平均的な性能低下は29.19%で、いくつかの手法はランダムな確率よりも悪く、上位モデルは重い圧縮の下で30ポイント以上低下する。
- 参考スコア(独自算出の注目度): 5.341795386333291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of synthetic media has been irrevocably altered by text-to-video (T2V) models, whose outputs are rapidly approaching indistinguishability from reality. Critically, this technology is no longer confined to large-scale labs; the proliferation of efficient, open-source generators is democratizing the ability to create high-fidelity synthetic content on consumer-grade hardware. This makes existing face-centric and manipulation-based benchmarks obsolete. To address this urgent threat, we introduce SynthForensics, to the best of our knowledge the first human-centric benchmark for detecting purely synthetic video deepfakes. The benchmark comprises 6,815 unique videos from five architecturally distinct, state-of-the-art open-source T2V models. Its construction was underpinned by a meticulous two-stage, human-in-the-loop validation to ensure high semantic and visual quality. Each video is provided in four versions (raw, lossless, light, and heavy compression) to enable real-world robustness testing. Experiments demonstrate that state-of-the-art detectors are both fragile and exhibit limited generalization when evaluated on this new domain: we observe a mean performance drop of $29.19\%$ AUC, with some methods performing worse than random chance, and top models losing over 30 points under heavy compression. The paper further investigates the efficacy of training on SynthForensics as a means to mitigate these observed performance gaps, achieving robust generalization to unseen generators ($93.81\%$ AUC), though at the cost of reduced backward compatibility with traditional manipulation-based deepfakes. The complete dataset and all generation metadata, including the specific prompts and inference parameters for every video, will be made publicly available at [link anonymized for review].
- Abstract(参考訳): 合成メディアの風景はテキスト・ツー・ビデオ(T2V)モデルによって不可避的に変化しており、その出力は現実と区別できないほど急速に近づいている。
効率的でオープンソースのジェネレータの普及は、消費者階級のハードウェア上で高忠実な合成コンテンツを作る能力を民主化している。
これにより、既存の顔中心および操作ベースのベンチマークが廃止される。
この緊急な脅威に対処するために、私たちはSynthForensicsを紹介します。
ベンチマークは、アーキテクチャ的に異なる、最先端のオープンソースT2Vモデルの6,815のユニークなビデオで構成されている。
その構造は、高度なセマンティクスと視覚的品質を確保するために、細心の注意深い2段階の人間-イン-ザ-ループの検証によって支えられた。
各ビデオは、4つのバージョン(生、無損失、光、重圧縮)で提供され、現実世界の堅牢性テストを可能にする。
実験により、最先端検出器は脆弱であり、この新しい領域で評価された場合、限定的な一般化を示すことが示されている: 平均的な性能低下は29.19 %$ AUCであり、いくつかの手法はランダムな確率よりも悪く、上位モデルは重い圧縮の下で30ポイント以上低下している。
従来の操作ベースディープフェイクとの後方互換性の低下を犠牲にしつつも、観測された性能ギャップを緩和し、未確認ジェネレータ(93.81 %$ AUC)への堅牢な一般化を実現するための手段として、Synthforensicsのトレーニングの有効性について検討する。
すべてのビデオに対する特定のプロンプトや推論パラメータを含む完全なデータセットとすべての生成メタデータは、[レビューのために匿名化されたリンク]で公開されます。
関連論文リスト
- Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。
この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。
次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-12-17T18:48:26Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - GV-VAD : Exploring Video Generation for Weakly-Supervised Video Anomaly Detection [6.09434007746295]
ビデオ異常検出(VAD)は、インテリジェント監視などの公共安全アプリケーションにおいて重要な役割を果たす。
本稿では, 意味制御可能な, 物理的に可視な合成ビデオを生成するために, 映像強化弱教師付きVADフレームワークを提案する。
提案するフレームワークは,UCF-Crimeデータセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2025-08-01T04:42:40Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。