論文の概要: T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models
- arxiv url: http://arxiv.org/abs/2407.05965v1
- Date: Mon, 8 Jul 2024 14:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:30:42.660494
- Title: T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models
- Title(参考訳): T2VSafetyBench: テキスト・ビデオ生成モデルの安全性を評価する
- Authors: Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao,
- Abstract要約: T2VSafetyBenchは,テキスト・ビデオ・モデルの安全性クリティカルな評価を行うために設計された新しいベンチマークである。
我々は、ビデオ生成の安全性の12つの重要な側面を定義し、LSMとジェイルブレイク攻撃を用いた悪意のあるプロンプトデータセットを構築した。
評価結果から,1つのモデルがすべての面で優れ,異なる長所を示すモデルが存在しないこと,2) GPT-4アセスメントと手動レビューの相関が概ね高いこと,3)テキスト・ビデオ生成モデルのユーザビリティと安全性との間にはトレードオフが存在すること,など,重要な知見が得られた。
- 参考スコア(独自算出の注目度): 39.15695612766001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of Sora leads to a new era in text-to-video (T2V) generation. Along with this comes the rising concern about its security risks. The generated videos may contain illegal or unethical content, and there is a lack of comprehensive quantitative understanding of their safety, posing a challenge to their reliability and practical deployment. Previous evaluations primarily focus on the quality of video generation. While some evaluations of text-to-image models have considered safety, they cover fewer aspects and do not address the unique temporal risk inherent in video generation. To bridge this research gap, we introduce T2VSafetyBench, a new benchmark designed for conducting safety-critical assessments of text-to-video models. We define 12 critical aspects of video generation safety and construct a malicious prompt dataset using LLMs and jailbreaking prompt attacks. Based on our evaluation results, we draw several important findings, including: 1) no single model excels in all aspects, with different models showing various strengths; 2) the correlation between GPT-4 assessments and manual reviews is generally high; 3) there is a trade-off between the usability and safety of text-to-video generative models. This indicates that as the field of video generation rapidly advances, safety risks are set to surge, highlighting the urgency of prioritizing video safety. We hope that T2VSafetyBench can provide insights for better understanding the safety of video generation in the era of generative AI.
- Abstract(参考訳): Soraの最近の発展は、テキスト・トゥ・ビデオ(T2V)世代の新しい時代へと繋がる。
これに伴い、セキュリティリスクに対する懸念が高まっている。
生成されたビデオには違法なコンテンツや非倫理的なコンテンツが含まれており、それらの安全性に関する包括的な定量的理解が欠如しており、信頼性と実践的な展開に挑戦している。
これまでの評価は、主にビデオ生成の品質に焦点を当てていた。
テキスト・ツー・イメージ・モデルのいくつかの評価は安全性を考慮しているが、より少ない側面をカバーし、ビデオ生成に固有のユニークな時間的リスクに対処しない。
この研究ギャップを埋めるために,テキスト・ツー・ビデオモデルの安全性クリティカルな評価を行うために設計された新しいベンチマークであるT2VSafetyBenchを紹介する。
我々は、ビデオ生成の安全性の12つの重要な側面を定義し、LSMとジェイルブレイク攻撃を用いた悪意のあるプロンプトデータセットを構築した。
評価結果から,いくつかの重要な知見が得られた。
1) 異なるモデルが様々な強みを示すため,すべての面において単一のモデルが優れているものはない。
2) GPT-4評価とマニュアルレビューの相関は概ね高い。
3)テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
このことは、ビデオ生成の分野が急速に進歩するにつれて、安全リスクが急上昇し、ビデオ安全性の優先順位付けの急激さが浮き彫りになることを示している。
我々は、T2VSafetyBenchが、生成AI時代のビデオ生成の安全性をよりよく理解するための洞察を提供することを期待している。
関連論文リスト
- Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Towards Understanding Unsafe Video Generation [10.269782780518428]
ビデオ生成モデル(VGM)は高品質な出力を合成する能力を実証している。
安全でないビデオカテゴリーは、Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, Politicalの5つです。
次に、安全でないビデオの発生を防ぐための防御機構について検討する。
論文 参考訳(メタデータ) (2024-07-17T14:07:22Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation [100.23111948079037]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models [6.475537049815622]
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
論文 参考訳(メタデータ) (2023-05-22T15:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。