論文の概要: CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2605.00630v1
- Date: Fri, 01 May 2026 13:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.955216
- Title: CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection
- Title(参考訳): CMTA:汎用AI生成ビデオ検出のためのモーダルな時間的アーティファクトの活用
- Authors: Hang Wang, Chao Shen, Chenhao Lin, Minghui Yang, Lei Zhang, Cong Wang,
- Abstract要約: ビデオ合成技術は、デジタル認証にとって前例のない挑戦である。
クロスモーダル時間的アーティファクト(CMTA)における特異な指紋の同定
本稿では、これらのユニークな時間的アーティファクトをキャプチャするクロスモーダル検出手法であるCMTAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.739302264021795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of advanced AI video synthesis techniques poses an unprecedented challenge to digital video authenticity. Existing AI-generated video (AIGV) detection methods primarily focus on uni-modal or spatiotemporal artifacts, but they overlook the rich cues within the visual-textual cross-modal space, especially the temporal stability of semantic alignment. In this work, we identify a distinctive fingerprint in AIGVs, termed cross-modal temporal artifact (CMTA). Unlike real videos that exhibit natural temporal fluctuations in cross-modal alignment due to semantic variations, AIGVs display unnaturally stable semantic trajectories governed by given input prompts. To bridge this gap, we propose the CMTA framework, a cross-modal detection approach that captures these unique temporal artifacts through joint cross-modal embedding and multi-grained temporal modeling. Specifically, CMTA leverages BLIP to generate frame-level image captions and utilizes CLIP to extract corresponding visual-textual representations. A coarse-grained temporal modeling branch is then designed to characterize temporal fluctuations in cross-modal alignment with a GRU. In parallel, a fine-grained branch is constructed to capture intricate inter-frame variations from integrated visual-textual features with a Transformer encoder. Extensive experiments on 40 subsets across four large-scale datasets, including GenVideo, EvalCrafter, VideoPhy, and VidProM, validate that our approach sets a new state-of-the-art while exhibiting superior cross-generator generalization. Code and models of CMTA will be released at https://github.com/hwang-cs-ime/CMTA
- Abstract(参考訳): 高度なAIビデオ合成技術の普及は、デジタルビデオの真正性に対する前例のない挑戦である。
既存のAI生成ビデオ(AIGV)検出方法は、主に一様または時空間のアーティファクトに焦点を当てるが、視覚-テクスト間空間内の豊富なキュー、特にセマンティックアライメントの時間的安定性を見落としている。
本研究では,AIGVの特異な指紋を同定し,これをCMTA (cross-modal temporal artifact) と呼ぶ。
意味的変動による時間的相互アライメントの自然な変動を示す実ビデオとは異なり、AIGVは与えられた入力プロンプトによって制御される非自然的に安定した意味軌道を示す。
このギャップを埋めるために,CMTAフレームワークを提案する。CMTAフレームワークは,これらのユニークな時間的アーティファクトを,共同のモーダル埋め込みと多粒度時間的モデリングによってキャプチャする。
特に、CMTAはBLIPを利用してフレームレベルの画像キャプションを生成し、CLIPを使って対応する視覚的テキスト表現を抽出する。
粗粒度時間モデル分岐は、GRUとの交差モーダルアライメントにおける時間変動を特徴付けるように設計されている。
並行して、細粒度のブランチが構築され、Transformerエンコーダで統合された視覚テキスト機能からフレーム間の複雑なバリエーションをキャプチャする。
GenVideo、EvalCrafter、VideoPhy、VidProMを含む4つの大規模データセットにまたがる40のサブセットに関する大規模な実験により、我々のアプローチは、優れたクロスジェネレータの一般化を示しながら、新しい最先端技術を設定することを検証した。
CMTAのコードとモデルはhttps://github.com/hwang-cs-ime/CMTAで公開される。
関連論文リスト
- ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity [44.13741922118129]
異時性自己相似性(ATSS)と呼ばれるAIGVの特異な指紋を同定する。
我々は,この知見を三重相似表現と相互共役融合機構によって活用する多モーダル検出フレームワークATSSを提案する。
ATSSはAP、AUC、ACCの指標で最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2026-04-05T09:10:13Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。
提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。