Fugu-MT 論文翻訳(概要): ReConFuse: Reconstruction-Error Guided Semantic Fusion for AI-Generated Video Detection

論文の概要: ReConFuse: Reconstruction-Error Guided Semantic Fusion for AI-Generated Video Detection

arxiv url: http://arxiv.org/abs/2606.04706v1
Date: Wed, 03 Jun 2026 10:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.68625
Title: ReConFuse: Reconstruction-Error Guided Semantic Fusion for AI-Generated Video Detection
Title（参考訳）: ReConFuse:AI生成ビデオ検出のためのリコンストラクションエラーガイドセマンティックフュージョン
Authors: Xiaojing Chen, Xinyu Lu, Changtao Miao, Yunfeng Diao,
Abstract要約: ビデオレベルのAI生成ビデオ検出のための再構成誘導型セマンティックフュージョンフレームワークReConFuseを提案する。 ReConFuseは、WF-VAE再構成ビデオから再構成エラーキューを抽出し、それらを多フレームセマンティック特徴と整列させ、Mambaベースのモジュールを使用してビデオレベルの分類のための時間的進化をモデル化する。
参考スコア（独自算出の注目度）: 10.547980601243518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI-generated videos are becoming increasingly realistic, raising serious concerns about misinformation, content authenticity, and media trust. Reliable AI-generated video detection is therefore essential for multimedia forensics, yet remains challenging due to the need to capture spatial artifacts, temporal dynamics, and generalize to evolving generative models. In this paper, we explore reconstruction error as a discriminative forensic cue for AI-generated video detection. By reconstructing input videos with a pretrained WF-VAE, we observe that real and generated videos exhibit distinguishable frame-wise reconstruction error patterns, suggesting that reconstruction errors can reveal their distributional discrepancies. However, extending reconstruction-based image detection to videos is non-trivial, since video reconstruction errors are temporally organized across frames and require semantic context for effective interpretation. To address these challenges, we propose ReConFuse, a reconstruction-guided semantic fusion framework for video-level AI-generated video detection. ReConFuse extracts reconstruction error cues from WF-VAE reconstructed videos, aligns them with multi-frame semantic features, and uses a Mamba-based module to model temporal evolution for video-level classification. Experiments across multiple generators and evaluation settings demonstrate the effectiveness and strong generalization ability of ReConFuse.
Abstract（参考訳）: AI生成ビデオはますます現実的になりつつあり、誤情報、コンテンツ認証、メディア信頼に関する深刻な懸念が高まっている。したがって、信頼性の高いAI生成ビデオ検出はマルチメディア法医学において不可欠であるが、空間的アーティファクトのキャプチャ、時間的ダイナミクス、および進化する生成モデルへの一般化の必要性から、依然として困難である。本稿では,AI生成ビデオ検出のための識別的法医学的手がかりとして再構成誤りについて検討する。予め訓練されたWF-VAEを用いて入力ビデオの再構成を行うことで、実ビデオと生成ビデオがフレーム単位の再構成誤りパターンを識別できることを観察し、再構成エラーが分布の相違を明らかにすることを示唆した。しかし, 映像の復元誤りはフレーム間で時間的に整理され, 効果的な解釈に意味的コンテキストを必要とするため, 映像への再構成に基づく画像検出の延長は容易ではない。これらの課題に対処するために、ビデオレベルのAI生成ビデオ検出のための再構成誘導セマンティックフュージョンフレームワークReConFuseを提案する。 ReConFuseは、WF-VAE再構成ビデオから再構成エラーキューを抽出し、それらを多フレームセマンティック特徴と整列させ、Mambaベースのモジュールを使用してビデオレベルの分類のための時間的進化をモデル化する。複数のジェネレータと評価設定にまたがる実験は、ReConFuseの有効性と強力な一般化能力を示している。

関連論文リスト

CreativeVR: Diffusion-Prior-Guided Approach for Structure and Motion Restoration in Generative and Real Videos [17.81372151946937]
CreativeVRはAIGC(AIGC)と、厳格な構造と時間的アーティファクトを備えた実ビデオのための拡散優先のビデオ復元フレームワークである。我々のDeep-Adapter-based methodは、モデルが入力にどれだけ強く従うかを制御する単一の精度ノブを公開する。 CreativeVRは、厳しいアーティファクトを持つビデオの最先端の結果を達成し、標準的なビデオ復元ベンチマークで競争的に実行します。
論文参考訳（メタデータ） (2025-12-12T22:03:14Z)
MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。 3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文参考訳（メタデータ） (2025-10-09T17:42:51Z)
LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文参考訳（メタデータ） (2025-10-01T18:10:08Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文参考訳（メタデータ） (2025-02-11T07:43:47Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文参考訳（メタデータ） (2023-10-12T03:21:12Z)
Making Reconstruction-based Method Great Again for Video Anomaly Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文参考訳（メタデータ） (2023-01-28T01:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。