論文の概要: DBINDS - Can Initial Noise from Diffusion Model Inversion Help Reveal AI-Generated Videos?
- arxiv url: http://arxiv.org/abs/2511.09184v1
- Date: Thu, 13 Nov 2025 01:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.451772
- Title: DBINDS - Can Initial Noise from Diffusion Model Inversion Help Reveal AI-Generated Videos?
- Title(参考訳): DBINDS - 拡散モデルインバージョンの初期ノイズはAI生成ビデオの発見に役立つか?
- Authors: Yanlin Wu, Xiaogang Yuan, Dezhi An,
- Abstract要約: 本稿では,拡散モデルインバージョンに基づく検出器DBINDSを提案する。
拡散インバージョンにより復元された初期ノイズシーケンスは,実ビデオと生成ビデオとで系統的に異なることがわかった。
特徴最適化とベイズ探索によって調整されたLightGBMにより、DBINDSはGenVidBench上で強力なクロスジェネレータ性能を実現する。
- 参考スコア(独自算出の注目度): 3.94169897749583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated video has advanced rapidly and poses serious challenges to content security and forensic analysis. Existing detectors rely mainly on pixel-level visual cues and generalize poorly to unseen generators. We propose DBINDS, a diffusion-model-inversion based detector that analyzes latent-space dynamics rather than pixels. We find that initial noise sequences recovered by diffusion inversion differ systematically between real and generated videos. Building on this, DBINDS forms an Initial Noise Difference Sequence (INDS) and extracts multi-domain, multi-scale features. With feature optimization and a LightGBM classifier tuned by Bayesian search, DBINDS (trained on a single generator) achieves strong cross-generator performance on GenVidBench, demonstrating good generalization and robustness in limited-data settings.
- Abstract(参考訳): AI生成ビデオは急速に進歩し、コンテンツセキュリティと法医学的分析に深刻な課題を提起している。
既存の検出器は、主にピクセルレベルの視覚的手がかりに依存し、見えないジェネレータに悪影響を及ぼす。
本稿では,拡散モデルインバージョンに基づく検出器DBINDSを提案する。
拡散インバージョンにより復元された初期ノイズシーケンスは,実ビデオと生成ビデオとで系統的に異なることがわかった。
これに基づいて、DBINDSは初期雑音差シーケンス(INDS)を形成し、マルチドメイン、マルチスケールの特徴を抽出する。
ベイジアンサーチによって調整されたLightGBM分類器と特徴最適化により、DBINDSはGenVidBench上で強力なクロスジェネレータ性能を実現し、限定データ設定において優れた一般化と堅牢性を示す。
関連論文リスト
- Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection [13.576997219135992]
LATent Trajectory Embeddingは、複数の認知ステップにまたがる遅延埋め込みの進化をモデル化する新しいアプローチである。
GenImage、Chameleon、Diffusion Forensicsといったいくつかのベンチマークの実験は、LATTEが優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-07-03T12:53:47Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection [11.907536189598577]
現在のAIGC検出器は、トレーニングに使用される同じジェネレータで生成された画像に対してほぼ完璧な精度を達成するが、目に見えないジェネレータからの出力に一般化するのに苦労する。
検出器は、堅牢な生成アーティファクトを学ぶのではなく、初期ノイズベクトルから発生するパターンに関連するショートカットを学習する。
そこで我々は, 発電機の出力多様体に残る逆数例を生成するオン・マニフォールド・逆数訓練(OMAT)を提案する。
論文 参考訳(メタデータ) (2025-06-01T07:20:45Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。