論文の概要: VGMShield: Mitigating Misuse of Video Generative Models
- arxiv url: http://arxiv.org/abs/2402.13126v1
- Date: Tue, 20 Feb 2024 16:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:30:58.019595
- Title: VGMShield: Mitigating Misuse of Video Generative Models
- Title(参考訳): VGMShield:ビデオ生成モデルの誤用を軽減
- Authors: Yan Pang, Yang Zhang, Tianhao Wang
- Abstract要約: VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
- 参考スコア(独自算出の注目度): 7.963591895964269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement in video generation, people can conveniently
utilize video generation models to create videos tailored to their specific
desires. Nevertheless, there are also growing concerns about their potential
misuse in creating and disseminating false information.
In this work, we introduce VGMShield: a set of three straightforward but
pioneering mitigations through the lifecycle of fake video generation. We start
from \textit{fake video detection} trying to understand whether there is
uniqueness in generated videos and whether we can differentiate them from real
videos; then, we investigate the \textit{tracing} problem, which maps a fake
video back to a model that generates it. Towards these, we propose to leverage
pre-trained models that focus on {\it spatial-temporal dynamics} as the
backbone to identify inconsistencies in videos. Through experiments on seven
state-of-the-art open-source models, we demonstrate that current models still
cannot perfectly handle spatial-temporal relationships, and thus, we can
accomplish detection and tracing with nearly perfect accuracy.
Furthermore, anticipating future generative model improvements, we propose a
{\it prevention} method that adds invisible perturbations to images to make the
generated videos look unreal. Together with fake video detection and tracing,
our multi-faceted set of solutions can effectively mitigate misuse of video
generative models.
- Abstract(参考訳): ビデオ生成の急速な進歩により、ユーザーはビデオ生成モデルを利用して、特定の欲求に合わせてビデオを作成することができる。
それにもかかわらず、偽情報の作成と広める上での誤用に対する懸念も高まっている。
本稿では,VGMShieldについて紹介する。VGMShieldは,フェイクビデオ生成のライフサイクルを通じて,単純だが先駆的な3つの軽減策である。
まず、生成したビデオに独自性があるかどうか、実際のビデオと区別できるかどうかを理解するために、‘textit{fake video detection’から始め、偽のビデオを生成したモデルにマッピングする‘textit{tracing}問題を調べる。
そこで本稿では,ビデオの不整合を識別するためのバックボーンとして,空間時間力学に着目した事前学習モデルを提案する。
7つの最先端オープンソースモデルの実験を通して、現在のモデルでは空間的・時間的関係を完璧に扱えないことを実証し、ほぼ完全な精度で検出と追跡を達成できることを示した。
さらに,将来的な生成モデルの改善を期待して,画像に目に見えない摂動を加えて生成した映像を非現実的に見せる手法を提案する。
偽のビデオ検出とトレースと共に、マルチフェイスのソリューションセットは、ビデオ生成モデルの誤用を効果的に軽減します。
関連論文リスト
- PEEKABOO: Interactive Video Generation via Masked-Diffusion [17.774312162403135]
Peekabooは、既製のビデオ生成モデルに、トレーニングなし、ノン・イン・オーバーヘッドな追加機能だ。
Peekabooはビデオ生成を制御でき、ベースラインモデルで最大3.8倍のゲインが得られる。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with
Diffusion Models [99.84195819571411]
ART$boldsymbolcdot$Vは拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークである。
隣接するフレーム間の単純な連続的な動きしか学ばない。
様々なプロンプトで調整された、任意に長いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T18:59:47Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。