論文の概要: Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation
- arxiv url: http://arxiv.org/abs/2506.16802v1
- Date: Fri, 20 Jun 2025 07:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.36959
- Title: Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation
- Title(参考訳): 法医学指向の強化による汎用AI生成ビデオ検出
- Authors: Riccardo Corvi, Davide Cozzolino, Ekta Prashnani, Shalini De Mello, Koki Nagano, Luisa Verdoliva,
- Abstract要約: 合成ビデオ生成は、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。
いくつかのビデオ法医学検出器が最近提案されているが、しばしば一般化が不十分である。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
- 参考スコア(独自算出の注目度): 18.402668470092294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic video generation is progressing very rapidly. The latest models can produce very realistic high-resolution videos that are virtually indistinguishable from real ones. Although several video forensic detectors have been recently proposed, they often exhibit poor generalization, which limits their applicability in a real-world scenario. Our key insight to overcome this issue is to guide the detector towards seeing what really matters. In fact, a well-designed forensic classifier should focus on identifying intrinsic low-level artifacts introduced by a generative architecture rather than relying on high-level semantic flaws that characterize a specific model. In this work, first, we study different generative architectures, searching and identifying discriminative features that are unbiased, robust to impairments, and shared across models. Then, we introduce a novel forensic-oriented data augmentation strategy based on the wavelet decomposition and replace specific frequency-related bands to drive the model to exploit more relevant forensic cues. Our novel training paradigm improves the generalizability of AI-generated video detectors, without the need for complex algorithms and large datasets that include multiple synthetic generators. To evaluate our approach, we train the detector using data from a single generative model and test it against videos produced by a wide range of other models. Despite its simplicity, our method achieves a significant accuracy improvement over state-of-the-art detectors and obtains excellent results even on very recent generative models, such as NOVA and FLUX. Code and data will be made publicly available.
- Abstract(参考訳): 合成ビデオ生成は非常に急速に進んでいる。
最新のモデルは、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。
近年、いくつかのビデオ法医学検出器が提案されているが、しばしば一般化が乏しく、現実のシナリオでの応用性が制限されている。
この問題を克服するための重要な洞察は、検出器が本当に重要なものを見るよう導くことです。
実際、よく設計された法学分類器は、特定のモデルを特徴付ける高レベルの意味的欠陥に頼るのではなく、生成アーキテクチャによって導入された固有の低レベルのアーティファクトを特定することに焦点をあてるべきである。
本研究はまず、異なる生成的アーキテクチャを研究し、偏りがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
次に、ウェーブレット分解に基づく新しい法医学指向データ拡張戦略を導入し、特定の周波数関連バンドを置き換えることにより、より関連する法医学的手がかりを活用する。
我々の新しい訓練パラダイムは、複雑なアルゴリズムや複数の合成発電機を含む大規模なデータセットを必要とせずに、AI生成ビデオ検出器の一般化性を向上させる。
提案手法を評価するために,1つの生成モデルから得られたデータを用いて検出器を訓練し,他の広範囲のモデルが生成したビデオに対してテストする。
その単純さにもかかわらず,本手法は最先端検出器よりも精度が向上し,NOVAやFLUXといった非常に最近の生成モデルでも優れた結果が得られる。
コードとデータは公開されます。
関連論文リスト
- TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection [8.166056418369125]
TalkingHeadBenchはディープフェイクのトーキングヘッド検出のためのベンチマークだ。
私たちのデータセットには、主要な学術モデルと商業モデルによって合成されたディープフェイクが含まれています。
一般的な障害モードや検出可能なバイアスを明らかにするために,Grad-CAM視覚化を用いてエラー解析を行う。
論文 参考訳(メタデータ) (2025-05-30T17:59:08Z) - AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection [9.540547388707987]
Ai-GenBenchは、現実のシナリオにおけるAI生成イメージの堅牢な検出の必要性に対処するために設計された、新しいベンチマークである。
Ai-GenBenchは、明確な評価ルールと制御された拡張戦略を確立することにより、検出方法とスケーラブルなソリューションの有意義な比較を可能にする。
論文 参考訳(メタデータ) (2025-04-29T15:41:13Z) - Adaptive Meta-Learning for Robust Deepfake Detection: A Multi-Agent Framework to Data Drift and Model Generalization [6.589206192038365]
本稿では,タスク固有適応型サンプル合成と整合性正規化を用いた対角的メタ学習アルゴリズムを提案する。
これにより、モデルの堅牢性と一般化の両方が促進される。
実験結果は、モデルが様々なデータセットにわたって一貫した性能を示し、比較したモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-11-12T19:55:07Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。
これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。
本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。
モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文 参考訳(メタデータ) (2024-03-25T11:26:18Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。