論文の概要: VGMShield: Mitigating Misuse of Video Generative Models
- arxiv url: http://arxiv.org/abs/2402.13126v2
- Date: Fri, 04 Jul 2025 04:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.031023
- Title: VGMShield: Mitigating Misuse of Video Generative Models
- Title(参考訳): VGMShield:ビデオ生成モデルの誤用を軽減
- Authors: Yan Pang, Baicheng Chen, Yang Zhang, Tianhao Wang,
- Abstract要約: VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが効果的な軽減策のセットである。
まずは偽のビデオ検出から始め、生成されたビデオにユニークさがあるかどうかを理解します。
そこで本研究では,偽動画を生成したモデルにマッピングする,偽ビデオソース追跡問題について検討する。
- 参考スコア(独自算出の注目度): 7.1819804607793705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement in video generation, people can conveniently use video generation models to create videos tailored to their specific desires. As a result, there are also growing concerns about the potential misuse of video generation for spreading illegal content and misinformation. In this work, we introduce VGMShield: a set of straightforward but effective mitigations through the lifecycle of fake video generation. We start from fake video detection, trying to understand whether there is uniqueness in generated videos and whether we can differentiate them from real videos; then, we investigate the fake video source tracing problem, which maps a fake video back to the model that generated it. Towards these, we propose to leverage pre-trained models that focus on spatial-temporal dynamics as the backbone to identify inconsistencies in videos. In detail, we analyze fake videos from the perspective of the generation process. Based on the observation of attention shifts, motion variations, and frequency fluctuations, we identify common patterns in the generated video. These patterns serve as the foundation for our experiments on fake video detection and source tracing. Through experiments on seven state-of-the-art open-source models, we demonstrate that current models still cannot reliably reproduce spatial-temporal relationships, and thus, we can accomplish detection and source tracing with over 90% accuracy. Furthermore, anticipating future generative model improvements, we propose a prevention method that adds invisible perturbations to the query images to make the generated videos look unreal. Together with detection and tracing, our multi-faceted set of solutions can effectively mitigate misuse of video generative models.
- Abstract(参考訳): ビデオ生成の急速な進歩により、ユーザーはビデオ生成モデルを使用して、特定の欲求に合わせてビデオを作成することができる。
その結果、違法コンテンツや誤報を拡散するビデオ生成の誤用の可能性についても懸念が高まっている。
本稿では, フェイクビデオ生成のライフサイクルを通じて, 単純だが効果的な軽減策であるVGMShieldを紹介する。
まず、生成したビデオに独自性があるかどうか、実際のビデオと区別できるかどうかを理解することから始め、偽のビデオソース追跡問題を調査し、偽動画を生成したモデルにマッピングする。
そこで本稿では,ビデオの不整合を識別するためのバックボーンとして,空間時間力学に着目した事前学習モデルを提案する。
より詳しくは、生成プロセスの観点から、フェイクビデオを解析する。
注目の変化, 動きの変化, 周波数変動の観測に基づいて, 生成したビデオの共通パターンを同定する。
これらのパターンは、フェイクビデオ検出とソーストレースの実験の基礎となる。
現状のオープンソースモデル7つの実験を通して,現在のモデルでは空間的・時間的関係を確実に再現することができず,90%以上の精度で検出およびソーストレースが達成可能であることを実証した。
さらに,今後の生成モデルの改善を期待して,クエリ画像に目に見えない摂動を加えて生成したビデオが非現実的に見えるようにする手法を提案する。
検出と追跡とともに、当社の多面的ソリューションセットは、ビデオ生成モデルの誤用を効果的に軽減することができる。
関連論文リスト
- Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。
多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。
本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文 参考訳(メタデータ) (2024-12-20T18:58:24Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset [32.236653072212015]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。