論文の概要: How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach
- arxiv url: http://arxiv.org/abs/2406.19568v2
- Date: Sun, 05 Oct 2025 14:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.222663
- Title: How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach
- Title(参考訳): 3DビジュアルワールドをシミュレートしたAI生成ビデオはどこまであるか:学習された3D評価アプローチ
- Authors: Chirui Chang, Jiahui Liu, Zhengzhe Liu, Xiaoyang Lyu, Yi-Hua Huang, Xin Tao, Pengfei Wan, Di Zhang, Xiaojuan Qi,
- Abstract要約: Learned 3D Evaluation (L3DE) は、3次元の視覚的品質とコンピテンシーの観点から、現実世界をシミュレートするAI生成ビデオの能力を評価する方法である。
信頼スコアは、3次元視覚的コヒーレンスの観点から、リアルビデオと合成ビデオのギャップを定量化する。
L3DEは、ビデオ生成モデルをベンチマークし、ディープフェイク検出器として機能し、フラグ付き不整合を塗布することでビデオ合成を強化する。
- 参考スコア(独自算出の注目度): 46.85336335756483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video diffusion models enable the generation of photorealistic videos with impressive 3D consistency and temporal coherence. However, the extent to which these AI-generated videos simulate the 3D visual world remains underexplored. In this paper, we introduce Learned 3D Evaluation (L3DE), an objective, quantifiable, and interpretable method for assessing AI-generated videos' ability to simulate the real world in terms of 3D visual qualities and consistencies, without requiring manually labeled defects or quality annotations. Instead of relying on 3D reconstruction, which is prone to failure with in-the-wild videos, L3DE employs a 3D convolutional network, trained on monocular 3D cues of motion, depth, and appearance, to distinguish real from synthetic videos. Confidence scores from L3DE quantify the gap between real and synthetic videos in terms of 3D visual coherence, while a gradient-based visualization pinpoints unrealistic regions, improving interpretability. We validate L3DE through extensive experiments, demonstrating strong alignment with 3D reconstruction quality and human judgments. Our evaluations on leading generative models (e.g., Kling, Sora, and MiniMax) reveal persistent simulation gaps and subtle inconsistencies. Beyond generative video assessment, L3DE extends to broader applications: benchmarking video generation models, serving as a deepfake detector, and enhancing video synthesis by inpainting flagged inconsistencies. Project page: https://justin-crchang.github.io/l3de-project-page/
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、印象的な3次元一貫性と時間的コヒーレンスを持つフォトリアリスティックビデオの生成を可能にする。
しかし、これらのAI生成ビデオが3Dビジュアルワールドをシミュレートする程度は、まだ解明されていない。
本稿では,手動でラベル付けされた欠陥や品質アノテーションを必要とせず,実世界の3次元視覚的品質や構成性をシミュレートする,AI生成ビデオの客観的かつ定量かつ解釈可能な評価方法であるLearted 3D Evaluation(L3DE)を紹介する。
L3DEは3Dコンボリューションネットワークを使って、動き、深さ、外観のモノラルな3Dキューを訓練し、合成ビデオと現実を区別する。
L3DEの信頼性スコアは、3次元の視覚的コヒーレンスの観点から実ビデオと合成ビデオのギャップを定量化します。
我々はL3DEを広範囲な実験により検証し,3次元再構成品質と人的判断との強い整合性を実証した。
我々の生成モデル(例えば、Kling、Sora、MiniMax)に対する評価は、持続的なシミュレーションギャップと微妙な矛盾を明らかにしている。
生成的ビデオアセスメント以外にも、L3DEは、ビデオ生成モデルをベンチマークし、ディープフェイク検出器として機能し、フラグ付き不整合を塗布することでビデオ合成を強化するなど、幅広い応用にまで拡張されている。
プロジェクトページ:https://justin-crchang.github.io/l3de-project-page/
関連論文リスト
- GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。
実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:33Z) - Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis [45.64047250474718]
ビデオ合成の進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオを作成することは難しい。
本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。
われわれのフレームワークは、動画フレームをシフトした視点から自動生成し、説得力のある3D効果を実現する。
論文 参考訳(メタデータ) (2025-04-30T19:06:09Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文 参考訳(メタデータ) (2024-02-27T10:49:05Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。