Fugu-MT 論文翻訳(概要): DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset

論文の概要: DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset

arxiv url: http://arxiv.org/abs/2402.02085v5
Date: Sat, 13 Jul 2024 18:20:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:05:02.680022
Title: DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset
Title（参考訳）: DeCoF:フレーム一貫性による生成ビデオ検出:最初のベンチマークデータセット
Authors: Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Qinglang Guo, Haiyang Yu, Yong Liao, Pengyuan Zhou,
Abstract要約: 生成したビデオのオープンソースデータセットと検出手法を初めて提案する。まず,964のプロンプトからなるスケーラブルなデータセットを提案する。第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
参考スコア（独自算出の注目度）: 32.236653072212015
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The escalating quality of video generated by advanced video generation methods results in new security challenges, while there have been few relevant research efforts: 1) There is no open-source dataset for generated video detection, 2) No generated video detection method has been proposed so far. To this end, we propose an open-source dataset and a detection method for generated video for the first time. First, we propose a scalable dataset consisting of 964 prompts, covering various forgery targets, scenes, behaviors, and actions, as well as various generation models with different architectures and generation methods, including the most popular commercial models like OpenAI's Sora and Google's Veo. Second, we found via probing experiments that spatial artifact-based detectors lack generalizability. Hence, we propose a simple yet effective \textbf{de}tection model based on \textbf{f}rame \textbf{co}nsistency (\textbf{DeCoF}), which focuses on temporal artifacts by eliminating the impact of spatial artifacts during feature learning. Extensive experiments demonstrate the efficacy of DeCoF in detecting videos generated by unseen video generation models and confirm its powerful generalizability across several commercially proprietary models. Our code and dataset will be released at \url{https://github.com/wuwuwuyue/DeCoF}.
Abstract（参考訳）: 高度なビデオ生成手法によって生成されたビデオの品質が向上すると、新たなセキュリティ上の課題がもたらされるが、関連する研究成果はほとんどない。 1)生成したビデオ検出のためのオープンソースデータセットは存在しない。 2) これまでに生成した映像検出手法は提案されていない。そこで本研究では,生成したビデオのオープンソースデータセットと検出方法を初めて提案する。まず、964プロンプトからなるスケーラブルなデータセットを提案し、さまざまなフォージェリターゲット、シーン、振る舞い、アクションに加えて、OpenAIのSoraやGoogleのVeoといった最もポピュラーな商用モデルを含む、さまざまなアーキテクチャと生成メソッドを備えたさまざまな世代モデルをカバーしています。第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。そこで,本稿では,特徴学習における空間的アーティファクトの影響を排除し,時間的アーティファクトに着目した,簡易かつ効果的な \textbf{de} 決定モデルを提案する。大規模な実験は、目に見えないビデオ生成モデルによって生成されたビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化性を複数の商用プロプライエタリなモデルで確認する。コードとデータセットは \url{https://github.com/wuwuuuuyue/DeCoF} でリリースされます。

関連論文リスト

Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文参考訳（メタデータ） (2025-08-11T12:18:55Z)
Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [18.402668470092294]
合成ビデオ生成は、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。いくつかのビデオ法医学検出器が最近提案されているが、しばしば一般化が不十分である。本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文参考訳（メタデータ） (2025-06-20T07:36:59Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [47.46972260985436]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文参考訳（メタデータ） (2025-01-20T08:58:56Z)
Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文参考訳（メタデータ） (2024-12-27T17:42:29Z)
Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T21:52:49Z)
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文参考訳（メタデータ） (2024-05-30T05:36:12Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2024-03-18T07:41:19Z)
VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文参考訳（メタデータ） (2024-02-20T16:39:23Z)
Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文参考訳（メタデータ） (2024-01-29T16:37:00Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文参考訳（メタデータ） (2023-06-12T05:49:23Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文参考訳（メタデータ） (2022-12-02T18:51:10Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Efficient training for future video generation based on hierarchical disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。 1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文参考訳（メタデータ） (2021-06-07T10:43:23Z)
Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文参考訳（メタデータ） (2021-03-26T20:37:55Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。