論文の概要: GenWorld: Towards Detecting AI-generated Real-world Simulation Videos
- arxiv url: http://arxiv.org/abs/2506.10975v1
- Date: Thu, 12 Jun 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.905748
- Title: GenWorld: Towards Detecting AI-generated Real-world Simulation Videos
- Title(参考訳): GenWorld:AIが生み出す実世界のシミュレーションビデオの発見を目指す
- Authors: Weiliang Chen, Wenzhao Zheng, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu, Yueqi Duan,
- Abstract要約: GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。
実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
- 参考スコア(独自算出の注目度): 79.98542193919957
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The flourishing of video generation technologies has endangered the credibility of real-world information and intensified the demand for AI-generated video detectors. Despite some progress, the lack of high-quality real-world datasets hinders the development of trustworthy detectors. In this paper, we propose GenWorld, a large-scale, high-quality, and real-world simulation dataset for AI-generated video detection. GenWorld features the following characteristics: (1) Real-world Simulation: GenWorld focuses on videos that replicate real-world scenarios, which have a significant impact due to their realism and potential influence; (2) High Quality: GenWorld employs multiple state-of-the-art video generation models to provide realistic and high-quality forged videos; (3) Cross-prompt Diversity: GenWorld includes videos generated from diverse generators and various prompt modalities (e.g., text, image, video), offering the potential to learn more generalizable forensic features. We analyze existing methods and find they fail to detect high-quality videos generated by world models (i.e., Cosmos), revealing potential drawbacks of ignoring real-world clues. To address this, we propose a simple yet effective model, SpannDetector, to leverage multi-view consistency as a strong criterion for real-world AI-generated video detection. Experiments show that our method achieves superior results, highlighting a promising direction for explainable AI-generated video detection based on physical plausibility. We believe that GenWorld will advance the field of AI-generated video detection. Project Page: https://chen-wl20.github.io/GenWorld
- Abstract(参考訳): ビデオ生成技術の隆盛は、実世界の情報の信頼性を脅かし、AI生成ビデオ検出器の需要を激化させている。
ある程度の進歩にもかかわらず、高品質な現実世界のデータセットが欠如していることは、信頼できる検出器の開発を妨げる。
本稿では,AI生成ビデオ検出のための大規模,高品質,実世界のシミュレーションデータセットであるGenWorldを提案する。
実世界のシミュレーション: GenWorldは実世界のシナリオを再現し、その現実性と潜在的な影響によって大きな影響を与えるビデオに焦点を当てている; (2) 高品質: GenWorldは、現実的で高品質な偽ビデオを提供するために複数の最先端のビデオ生成モデルを使用している; (3) クロスプロンプトの多様性: GenWorldには、多様なジェネレータと様々な急進的なモダリティ(例えば、テキスト、画像、ビデオ)から生成されたビデオが含まれており、より一般化可能な法医学的特徴を学ぶ能力を提供する。
我々は既存の手法を分析し、世界モデル(例えばコスモス)が生み出す高品質なビデオの発見に失敗し、現実世界の手がかりを無視する潜在的な欠点を明らかにする。
そこで我々は,現実のAI生成ビデオ検出において,マルチビューの一貫性を強い基準として活用する,シンプルで効果的なモデルであるSpannDetectorを提案する。
実験により,本手法はより優れた結果が得られ,身体的妥当性に基づいた説明可能なAI生成ビデオ検出のための有望な方向性が示された。
我々は、GenWorldがAI生成ビデオ検出の分野を前進させると考えている。
Project Page: https://chen-wl20.github.io/GenWorld
関連論文リスト
- Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。
この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。
次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-12-17T18:48:26Z) - From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [47.46972260985436]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Chameleon: On the Scene Diversity and Domain Variety of AI-Generated Videos Detection [4.66355848422886]
AI生成ビデオ検出のための既存のデータセットは、多様性、複雑性、リアリズムの限界を示す。
我々は、複数の生成ツールと様々な実ビデオソースを通してビデオを生成する。
同時に、シーンスイッチやダイナミックな視点変化など、ビデオの現実的な複雑さを保ちます。
論文 参考訳(メタデータ) (2025-03-09T13:58:43Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文 参考訳(メタデータ) (2024-12-12T18:59:57Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文 参考訳(メタデータ) (2024-05-30T05:36:12Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。