Fugu-MT 論文翻訳(概要): VGMShield: Mitigating Misuse of Video Generative Models

論文の概要: VGMShield: Mitigating Misuse of Video Generative Models

arxiv url: http://arxiv.org/abs/2402.13126v1
Date: Tue, 20 Feb 2024 16:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 14:30:58.019595
Title: VGMShield: Mitigating Misuse of Video Generative Models
Title（参考訳）: VGMShield:ビデオ生成モデルの誤用を軽減
Authors: Yan Pang, Yang Zhang, Tianhao Wang
Abstract要約: VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
参考スコア（独自算出の注目度）: 7.963591895964269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement in video generation, people can conveniently utilize video generation models to create videos tailored to their specific desires. Nevertheless, there are also growing concerns about their potential misuse in creating and disseminating false information. In this work, we introduce VGMShield: a set of three straightforward but pioneering mitigations through the lifecycle of fake video generation. We start from \textit{fake video detection} trying to understand whether there is uniqueness in generated videos and whether we can differentiate them from real videos; then, we investigate the \textit{tracing} problem, which maps a fake video back to a model that generates it. Towards these, we propose to leverage pre-trained models that focus on {\it spatial-temporal dynamics} as the backbone to identify inconsistencies in videos. Through experiments on seven state-of-the-art open-source models, we demonstrate that current models still cannot perfectly handle spatial-temporal relationships, and thus, we can accomplish detection and tracing with nearly perfect accuracy. Furthermore, anticipating future generative model improvements, we propose a {\it prevention} method that adds invisible perturbations to images to make the generated videos look unreal. Together with fake video detection and tracing, our multi-faceted set of solutions can effectively mitigate misuse of video generative models.
Abstract（参考訳）: ビデオ生成の急速な進歩により、ユーザーはビデオ生成モデルを利用して、特定の欲求に合わせてビデオを作成することができる。それにもかかわらず、偽情報の作成と広める上での誤用に対する懸念も高まっている。本稿では,VGMShieldについて紹介する。VGMShieldは,フェイクビデオ生成のライフサイクルを通じて,単純だが先駆的な3つの軽減策である。まず、生成したビデオに独自性があるかどうか、実際のビデオと区別できるかどうかを理解するために、‘textit{fake video detection’から始め、偽のビデオを生成したモデルにマッピングする‘textit{tracing}問題を調べる。そこで本稿では,ビデオの不整合を識別するためのバックボーンとして,空間時間力学に着目した事前学習モデルを提案する。 7つの最先端オープンソースモデルの実験を通して、現在のモデルでは空間的・時間的関係を完璧に扱えないことを実証し、ほぼ完全な精度で検出と追跡を達成できることを示した。さらに,将来的な生成モデルの改善を期待して,画像に目に見えない摂動を加えて生成した映像を非現実的に見せる手法を提案する。偽のビデオ検出とトレースと共に、マルチフェイスのソリューションセットは、ビデオ生成モデルの誤用を効果的に軽減します。

関連論文リスト

BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-30T22:34:52Z)
GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文参考訳（メタデータ） (2025-01-20T08:58:56Z)
Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文参考訳（メタデータ） (2024-12-27T17:42:29Z)
Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文参考訳（メタデータ） (2024-12-20T18:58:24Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文参考訳（メタデータ） (2024-06-27T23:03:58Z)
Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T21:52:49Z)
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文参考訳（メタデータ） (2024-06-11T17:19:26Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset [32.236653072212015]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。まず,964のプロンプトからなるスケーラブルなデータセットを提案する。第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文参考訳（メタデータ） (2024-02-03T08:52:06Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文参考訳（メタデータ） (2021-11-21T23:01:58Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。