論文の概要: Towards Understanding Unsafe Video Generation
- arxiv url: http://arxiv.org/abs/2407.12581v1
- Date: Wed, 17 Jul 2024 14:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:56:39.820086
- Title: Towards Understanding Unsafe Video Generation
- Title(参考訳): 安全でないビデオ生成の理解に向けて
- Authors: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang,
- Abstract要約: ビデオ生成モデル(VGM)は高品質な出力を合成する能力を実証している。
安全でないビデオカテゴリーは、Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, Politicalの5つです。
次に、安全でないビデオの発生を防ぐための防御機構について検討する。
- 参考スコア(独自算出の注目度): 10.269782780518428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.
- Abstract(参考訳): ビデオ生成モデル(VGM)は高品質な出力を合成する能力を実証している。
暴力的なビデオや恐ろしいビデオなど、安全でないコンテンツを制作する可能性を理解することが重要である。
本研究では,安全でないビデオ生成の包括的理解を提供する。
まず、これらのモデルが本当に安全でないビデオを生成する可能性を確認するために、4chanとLexicaから収集された安全でないコンテンツ生成プロンプトと、3つのオープンソースSOTA VGMを選択し、安全でないビデオを生成する。
重複や生成不良を除去した後、元の5607ビデオのプールから2112の安全でないビデオのセットを作成しました。
生成されたビデオのクラスタリングとセマティックコーディング分析により、Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, Politicalの5つの安全でないビデオカテゴリを特定した。
IRBの承認を得て、生成されたビデオのラベル付けを支援するために、オンライン参加者を募集します。
403人の参加者が提出したアノテーションに基づいて,初期ビデオから937本の安全でないビデオを特定した。
ラベル付き情報とそれに対応するプロンプトを用いて、VGMが生成した安全でないビデオの最初のデータセットを作成しました。
次に、安全でないビデオの発生を防ぐための防御機構について検討する。
画像生成における既存の防御手法は、入力プロンプトまたは出力結果のフィルタリングに重点を置いている。
モデルの内部サンプリングプロセス内で機能するLVD(Latent Variable Defense)と呼ばれる新しい手法を提案する。
LVDは、多数の安全でないプロンプトをサンプリングする際に、時間と計算資源を10倍に削減しながら、0.90の防御精度を達成することができる。
関連論文リスト
- Loong: Generating Minute-level Long Videos with Autoregressive Language Models [76.59124981781602]
そこで我々は,Longという自動回帰型大言語モデル (LLM) ベースのビデオジェネレータを提案する。
具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。
提案したLoongは10秒のビデオでトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張できる。
論文 参考訳(メタデータ) (2024-10-03T17:59:02Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z) - DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文 参考訳(メタデータ) (2024-05-30T05:36:12Z) - Unveiling the Potential: Harnessing Deep Metric Learning to Circumvent Video Streaming Encryption [4.522744286037825]
暗号化されたビデオストリーム検出のためのトリプルト損失法に基づくディープメトリック学習フレームワークを提案する。
提案手法は,1000本以上のビデオのデータセットによく対応している。
本研究は,このサイドチャネル攻撃が,当初考えられていたよりも広い範囲に適用可能であることを示唆する。
論文 参考訳(メタデータ) (2024-05-16T08:49:05Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Malicious or Benign? Towards Effective Content Moderation for Children's
Videos [1.0323063834827415]
本稿では,児童ビデオの自動コンテンツモデレーションに関する研究を促進するためのツールキットであるMalicious or Benignを紹介する。
1)ビデオのカスタマイズ可能なアノテーションツール,2)悪意のあるコンテンツのテストケースを検出するのが難しい新しいデータセット,3)最先端のビデオ分類モデルのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2023-05-24T20:33:38Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Playable Video Generation [47.531594626822155]
我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。
タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。
本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。