論文の概要: Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2509.22646v2
- Date: Wed, 01 Oct 2025 05:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.792199
- Title: Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
- Title(参考訳): マルチモーダルLLMを用いたAI映像における人間の知覚的フェイクネスの学習
- Authors: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch,
- Abstract要約: DeeptraceRewardは、人間が認識した偽のトレースをビデオ生成報酬に注釈付けするベンチマークである。
データセットは、高品質な3.3ビデオにまたがる4.3Kの詳細なアノテーションで構成されている。
これらのアノテーションを9つの主要なディープフェイクトレースカテゴリに集約し、人間が動画をAI生成であると識別する。
- 参考スコア(独自算出の注目度): 92.02382309654263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.
- Abstract(参考訳): 人間はAIによって生成された(偽の)動画を識別し、根拠となる理由を提供することができるか?
ビデオ生成モデルは急速に進歩してきたが、人間が生成されたビデオの中でディープフェイクの痕跡を検知できるかどうか、すなわち、ビデオが機械で生成されたことを示す時空間的な視覚的アーティファクトは、ほとんど見過ごされてしまった。
DeeptraceRewardは、人間の認識した偽のトレースをビデオ生成報酬に注釈付けする、空間的、時間的に意識された最初のきめ細かいベンチマークである。
データセットは、高品質な3.3Kビデオにまたがる4.3Kの詳細なアノテーションで構成されている。
各アノテーションは自然言語の説明を提供し、認識されたトレースを含むバウンディングボックス領域をピンポイントし、正確なオンセットタイムスタンプとオフセットタイムスタンプを示す。
これらのアノテーションを9つの主要なディープフェイクトレースカテゴリに集約し、人間が動画をAI生成として識別し、人間の判断やローカライゼーションを模倣する報酬モデルとしてマルチモーダル言語モデル(LM)を訓練する。
DeeptraceRewardでは、我々の7B報酬モデルは偽の手がかり識別、接地、説明でGPT-5を平均34.7%上回っている。
興味深いことに、我々は一貫した難易度勾配を観察する:バイナリフェイクv.s.実分類は、きめ細かいディープフェイクトレース検出よりもかなり容易であり、後者では、自然言語の説明(最も簡単な)から空間的接地、時間的ラベリング(最も厳しい)まで性能が劣化する。
DeeptraceRewardは、人間の知覚したディープフェイクの痕跡を予見することによって、社会的に認識され、信頼できるビデオ生成のための厳格なテストベッドとトレーニング信号を提供する。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection [14.586314545834934]
本稿では,FakeSTormerと呼ばれる微細なディープフェイク映像検出手法を提案する。
具体的には、2つの補助分岐を組み込んだマルチタスク学習フレームワークを導入する。
また、微妙な時間的アーティファクトを持つ擬似フェイクビデオを生成するビデオレベルの合成戦略を提案する。
論文 参考訳(メタデータ) (2025-01-02T10:21:34Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションは ディープフェイクの新しいパラダイムだ ほとんどは 真実を歪めるために わずかに修正された 実際のビデオだ
本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文 参考訳(メタデータ) (2023-05-11T04:43:10Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - What's wrong with this video? Comparing Explainers for Deepfake
Detection [13.089182408360221]
Deepfakesは、個人の顔が別の顔に置き換えられたコンピュータ操作されたビデオです。
本研究では,実映像と偽動画のラベル付けを説明するために,ホワイトボックス,ブラックボックス,モデル固有の手法を開発し,拡張し,比較する。
特に,shap,gradcam,self-attentionモデルを用いて,高効率ネットに基づく最先端検出器の予測を説明する。
論文 参考訳(メタデータ) (2021-05-12T18:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。