論文の概要: VGMShield: Mitigating Misuse of Video Generative Models
- arxiv url: http://arxiv.org/abs/2402.13126v1
- Date: Tue, 20 Feb 2024 16:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:30:58.019595
- Title: VGMShield: Mitigating Misuse of Video Generative Models
- Title(参考訳): VGMShield:ビデオ生成モデルの誤用を軽減
- Authors: Yan Pang, Yang Zhang, Tianhao Wang
- Abstract要約: VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
- 参考スコア(独自算出の注目度): 7.963591895964269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement in video generation, people can conveniently
utilize video generation models to create videos tailored to their specific
desires. Nevertheless, there are also growing concerns about their potential
misuse in creating and disseminating false information.
In this work, we introduce VGMShield: a set of three straightforward but
pioneering mitigations through the lifecycle of fake video generation. We start
from \textit{fake video detection} trying to understand whether there is
uniqueness in generated videos and whether we can differentiate them from real
videos; then, we investigate the \textit{tracing} problem, which maps a fake
video back to a model that generates it. Towards these, we propose to leverage
pre-trained models that focus on {\it spatial-temporal dynamics} as the
backbone to identify inconsistencies in videos. Through experiments on seven
state-of-the-art open-source models, we demonstrate that current models still
cannot perfectly handle spatial-temporal relationships, and thus, we can
accomplish detection and tracing with nearly perfect accuracy.
Furthermore, anticipating future generative model improvements, we propose a
{\it prevention} method that adds invisible perturbations to images to make the
generated videos look unreal. Together with fake video detection and tracing,
our multi-faceted set of solutions can effectively mitigate misuse of video
generative models.
- Abstract(参考訳): ビデオ生成の急速な進歩により、ユーザーはビデオ生成モデルを利用して、特定の欲求に合わせてビデオを作成することができる。
それにもかかわらず、偽情報の作成と広める上での誤用に対する懸念も高まっている。
本稿では,VGMShieldについて紹介する。VGMShieldは,フェイクビデオ生成のライフサイクルを通じて,単純だが先駆的な3つの軽減策である。
まず、生成したビデオに独自性があるかどうか、実際のビデオと区別できるかどうかを理解するために、‘textit{fake video detection’から始め、偽のビデオを生成したモデルにマッピングする‘textit{tracing}問題を調べる。
そこで本稿では,ビデオの不整合を識別するためのバックボーンとして,空間時間力学に着目した事前学習モデルを提案する。
7つの最先端オープンソースモデルの実験を通して、現在のモデルでは空間的・時間的関係を完璧に扱えないことを実証し、ほぼ完全な精度で検出と追跡を達成できることを示した。
さらに,将来的な生成モデルの改善を期待して,画像に目に見えない摂動を加えて生成した映像を非現実的に見せる手法を提案する。
偽のビデオ検出とトレースと共に、マルチフェイスのソリューションセットは、ビデオ生成モデルの誤用を効果的に軽減します。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset [32.236653072212015]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。