論文の概要: Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
- arxiv url: http://arxiv.org/abs/2512.13281v2
- Date: Tue, 16 Dec 2025 09:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.975182
- Title: Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
- Title(参考訳): AIで生成されたASMRビデオは、VLMと人間を騙せるか?
- Authors: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin,
- Abstract要約: Video Reality Test(ビデオ・リアリティ・テスト)は、ASMRがオープンソース化したビデオベンチマークスイートで、音声と視覚の密結合の下で知覚的リアリズムをテストする。
このベンチマークは、慎重にキュレートされた実際のASMRビデオに基づいて構築され、オブジェクト、アクション、バックグラウンドの多様性と細かなアクションオブジェクトのインタラクションをターゲットとしている。
- 参考スコア(独自算出の注目度): 48.99013330282699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: \textbf{(i) Immersive ASMR video-audio sources.} Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. \textbf{(ii) Peer-Review evaluation.} An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.
- Abstract(参考訳): ビデオ生成の最近の進歩は、しばしば実際のビデオと区別できない鮮やかなコンテンツを生み出している。
以前のAIGC検出ベンチマークは、主に音声のないビデオを評価し、幅広い物語領域をターゲットにし、分類のみに焦点を当てていた。
しかし、最先端のビデオ生成モデルが、人間やVLMを確実に騙す没入型オーディオペアビデオを作ることができるかどうかは不明だ。
この目的のために、ASMRをソースとしたビデオベンチマークスイートであるVideo Reality Testを紹介した。
(i)Immersive ASMR video-audio source(英語)
ベンチマークは、オブジェクト、アクション、バックグラウンドの多様性とのきめ細かいアクションオブジェクトのインタラクションをターゲットとしています。
\textbf{
(II)ピアレビュー評価
ビデオ生成モデルは、レビュアーを騙そうとするクリエーターとして機能し、VLMは偽造の特定を求めるレビュアーとして機能する。
最高のクリエーターであるVeo3.1-Fastは、ほとんどのVLMを馬鹿にしています。最強のレビュアー(Gemini 2.5-Pro)は、人間の専門家(81.25-%)よりもはるかに低い56\%(ランダム50-%)の精度しか達成していません。
オーディオを追加することで、リアルタイムの識別が向上するが、透かしのような表面的な手がかりは、モデルを大幅に誤解させる可能性がある。
これらの知見は、映像生成リアリズムの現在の境界と、知覚的忠実度と音声-視覚的整合性におけるVLMの限界を明らかにするものである。
私たちのコードはhttps://github.com/video-reality-test/video-reality-testで公開しています。
関連論文リスト
- Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs [92.02382309654263]
DeeptraceRewardは、人間が認識した偽のトレースをビデオ生成報酬に注釈付けするベンチマークである。
データセットは、高品質な3.3ビデオにまたがる4.3Kの詳細なアノテーションで構成されている。
これらのアノテーションを9つの主要なディープフェイクトレースカテゴリに集約し、人間が動画をAI生成であると識別する。
論文 参考訳(メタデータ) (2025-09-26T17:59:54Z) - VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。
現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。
物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach [46.85336335756483]
Learned 3D Evaluation (L3DE) は、3次元の視覚的品質とコンピテンシーの観点から、現実世界をシミュレートするAI生成ビデオの能力を評価する方法である。
信頼スコアは、3次元視覚的コヒーレンスの観点から、リアルビデオと合成ビデオのギャップを定量化する。
L3DEは、ビデオ生成モデルをベンチマークし、ディープフェイク検出器として機能し、フラグ付き不整合を塗布することでビデオ合成を強化する。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - Self-Supervised Video Forensics by Audio-Visual Anomaly Detection [19.842795378751923]
操作されたビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
本稿では,これらの不整合を識別できる異常検出に基づくビデオ法医学手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて、自動回帰モデルを訓練し、音声・視覚的特徴のシーケンスを生成する。
論文 参考訳(メタデータ) (2023-01-04T18:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。