論文の概要: Your One-Stop Solution for AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2601.11035v1
- Date: Fri, 16 Jan 2026 07:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.3825
- Title: Your One-Stop Solution for AI-Generated Video Detection
- Title(参考訳): AIによるビデオ検出のためのワンストップソリューション
- Authors: Long Ma, Zihao Xue, Yan Wang, Zhiyuan Yan, Jin Xu, Xiaorui Jiang, Haiyang Yu, Yong Liao, Zhen Bi,
- Abstract要約: 生成モデリングは 驚くほどリアルな合成ビデオを作ることができます
しかし、この分野の発展を妨げる2つの重要な制限がある。
包括的で代表的なベンチマークであるAIGVDBenchを提案する。
- 参考スコア(独自算出の注目度): 26.581301251283943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative modeling can create remarkably realistic synthetic videos, making it increasingly difficult for humans to distinguish them from real ones and necessitating reliable detection methods. However, two key limitations hinder the development of this field. \textbf{From the dataset perspective}, existing datasets are often limited in scale and constructed using outdated or narrowly scoped generative models, making it difficult to capture the diversity and rapid evolution of modern generative techniques. Moreover, the dataset construction process frequently prioritizes quantity over quality, neglecting essential aspects such as semantic diversity, scenario coverage, and technological representativeness. \textbf{From the benchmark perspective}, current benchmarks largely remain at the stage of dataset creation, leaving many fundamental issues and in-depth analysis yet to be systematically explored. Addressing this gap, we propose AIGVDBench, a benchmark designed to be comprehensive and representative, covering \textbf{31} state-of-the-art generation models and over \textbf{440,000} videos. By executing more than \textbf{1,500} evaluations on \textbf{33} existing detectors belonging to four distinct categories. This work presents \textbf{8 in-depth analyses} from multiple perspectives and identifies \textbf{4 novel findings} that offer valuable insights for future research. We hope this work provides a solid foundation for advancing the field of AI-generated video detection. Our benchmark is open-sourced at https://github.com/LongMa-2025/AIGVDBench.
- Abstract(参考訳): 生成モデリングの最近の進歩は、驚くほどリアルな合成ビデオを作り出すことができるため、人間が本物と区別し、信頼できる検出方法を必要とすることがますます難しくなっている。
しかし、この分野の発展を妨げる2つの重要な制限がある。
既存のデータセットは、しばしばスケール的に制限され、時代遅れまたは狭くスコープ化された生成モデルを使用して構築されるため、現代の生成技術の多様性と急速な進化を捉えることは困難である。
さらに、データセット構築プロセスは品質よりも量を優先し、セマンティックな多様性、シナリオカバレッジ、技術的代表性といった重要な側面を無視する。
ベンチマークの観点からすると、現在のベンチマークはデータセット作成の段階に留まっており、多くの基本的な問題や詳細な分析は体系的に検討されていない。
AIGVDBenchは包括的かつ代表的であるように設計されたベンチマークで, 最先端生成モデルとtextbf{440,000}ビデオをカバーする。
4つの異なるカテゴリに属する既存の検出器に対して、 \textbf{1500} 以上の評価を実行する。
この研究は、複数の観点から \textbf{8 in-deepth analysis} を示し、将来の研究に有用な洞察を与える \textbf{4 novel findings} を特定する。
この研究が、AIが生成するビデオ検出の分野を前進させるための確固たる基盤を提供してくれることを願っている。
私たちのベンチマークはhttps://github.com/LongMa-2025/AIGVDBench.comで公開されています。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - DDL: A Large-Scale Datasets for Deepfake Detection and Localization in Diversified Real-World Scenarios [51.916287988122406]
本稿では,$textbf1.4M+$forgedサンプルを含む大規模ディープフェイク検出およびローカライゼーション(textbfDDL)データセットを提案する。
我々のDDLは、複雑な現実世界の偽造のより困難なベンチマークを提供するだけでなく、次世代のディープフェイク検出、ローカライゼーション、解釈可能性メソッドを構築するための重要なサポートも提供しています。
論文 参考訳(メタデータ) (2025-06-29T15:29:03Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - Time Series Generation Under Data Scarcity: A Unified Generative Modeling Approach [7.631288333466648]
データ・スカース・セッティングにおける主要な生成モデルを評価するための大規模な研究を初めて行った。
本稿では,いくつかの例を用いて高忠実度時系列を合成できる拡散型統合生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:39:04Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。