Fugu-MT 論文翻訳(概要): Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection

論文の概要: Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection

arxiv url: http://arxiv.org/abs/2605.21977v1
Date: Thu, 21 May 2026 04:11:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.088223
Title: Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection
Title（参考訳）: 自然な拡張としてのビデオ:統合されたAI生成画像とビデオ検出を目指して
Authors: Zhengcen Li, Chenyang Jiang, Liangxu Su, Tong Shao, Shiyang Zhou, Ming Tao, Jingyong Su,
Abstract要約: 我々は、ビデオから抽出したフレームに適用すると、SOTA AI生成画像検出器がしばしば崩壊することを示した。これらの知見に触発されて、画像と映像データを共同でトレーニングする統合AIGC検出フレームワークVINAを提案する。
参考スコア（独自算出の注目度）: 17.82437958396922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI-generated content (AIGC) is rapidly improving, creating an urgent need for detectors that generalize across data sources, deployment pipelines, and visual modalities. A strongly generalizable detector should remain robust under distributional variations. However, we identify a consistent failure mode: SOTA AI-generated image detectors often collapse when applied to frames extracted from videos. Through systematic analysis, we show that this cross-modal gap arises from both entangled synthesis-agnostic video processing shifts, including color conversion, codec compression, resizing, and blur, and model-specific fingerprints introduced by modern video generators. Motivated by these findings, we propose VINA (Video as Natural Augmentation), a unified AIGC detection framework that jointly trains on image and video data. VINA uses video frames as physically grounded natural augmentations and further introduces a cross-modal supervised contrastive objective to align image and video representations under a shared real/fake decision boundary. Extensive experiments on 14 image, video, and in-the-wild benchmarks show that VINA delivers bidirectional gains, improves robustness and transferability, and achieves state-of-the-art performance across nearly all evaluated settings without complex augmentation or dataset-specific tuning.
Abstract（参考訳）: AI生成コンテンツ(AIGC)は急速に改善され、データソース、デプロイメントパイプライン、視覚的モダリティをまたいで一般化する検出器が緊急に必要になる。強い一般化可能な検出器は、分布の変動の下で頑健でなければならない。しかし、我々は一貫した障害モードを特定している。ビデオから抽出されたフレームに適用した場合、SOTA AIによって生成された画像検出器は、しばしば崩壊する。系統的な解析により、この交差モーダルギャップは、色変換、コーデック圧縮、リサイズ、ぼやけなど、絡み合った合成非依存のビデオ処理シフトと、現代のビデオジェネレータによって導入されたモデル固有の指紋の両方から生じることを示す。これらの知見に触発されて、画像と映像データを共同でトレーニングする統合AIGC検出フレームワークVINA(Video as Natural Augmentation)を提案する。 VINAは、ビデオフレームを物理的に基盤とした自然な拡張として使用し、また、画像と映像の表現を共有実/フェイク決定境界の下で整列させる、相互に教師付きコントラスト目的を導入する。 14のイメージ、ビデオ、およびその中のベンチマークに関する大規模な実験は、VINAが双方向のゲインを提供し、堅牢性と転送性を改善し、複雑な拡張やデータセット固有のチューニングなしに、ほぼすべての評価された設定で最先端のパフォーマンスを達成することを示している。

関連論文リスト

CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection [45.739302264021795]
ビデオ合成技術は、デジタル認証にとって前例のない挑戦である。クロスモーダル時間的アーティファクト(CMTA)における特異な指紋の同定本稿では、これらのユニークな時間的アーティファクトをキャプチャするクロスモーダル検出手法であるCMTAフレームワークを提案する。
論文参考訳（メタデータ） (2026-05-01T13:04:14Z)
ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity [44.13741922118129]
異時性自己相似性(ATSS)と呼ばれるAIGVの特異な指紋を同定する。我々は,この知見を三重相似表現と相互共役融合機構によって活用する多モーダル検出フレームワークATSSを提案する。 ATSSはAP、AUC、ACCの指標で最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2026-04-05T09:10:13Z)
CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。 CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文参考訳（メタデータ） (2025-11-26T07:27:11Z)
Video Forgery Detection with Optical Flow Residuals and Spatial-Temporal Consistency [1.7061868168035932]
本稿では,RGBの外観特徴と光流動残差を組み合わせ,空間的時間的整合性を利用する検出フレームワークを提案する。これらの相補的特徴を統合することにより,提案手法は広範囲の偽動画を効果的に検出する。
論文参考訳（メタデータ） (2025-08-01T07:51:35Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection [24.67072921674199]
説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。 Ivy Explainable Detector (IVY-XDETECTOR)を提案する。我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-01T12:20:22Z)
CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。 CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。 CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文参考訳（メタデータ） (2025-02-10T06:21:16Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。