Fugu-MT 論文翻訳(概要): T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models

論文の概要: T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models

arxiv url: http://arxiv.org/abs/2407.05965v3
Date: Sun, 8 Sep 2024 16:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:51:43.176698
Title: T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models
Title（参考訳）: T2VSafetyBench: テキスト・ビデオ生成モデルの安全性を評価する
Authors: Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao,
Abstract要約: T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。異なるモデルは様々な強みを示す。テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
参考スコア（独自算出の注目度）: 39.15695612766001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent development of Sora leads to a new era in text-to-video (T2V) generation. Along with this comes the rising concern about its security risks. The generated videos may contain illegal or unethical content, and there is a lack of comprehensive quantitative understanding of their safety, posing a challenge to their reliability and practical deployment. Previous evaluations primarily focus on the quality of video generation. While some evaluations of text-to-image models have considered safety, they cover fewer aspects and do not address the unique temporal risk inherent in video generation. To bridge this research gap, we introduce T2VSafetyBench, a new benchmark designed for conducting safety-critical assessments of text-to-video models. We define 12 critical aspects of video generation safety and construct a malicious prompt dataset including real-world prompts, LLM-generated prompts and jailbreak attack-based prompts. Based on our evaluation results, we draw several important findings, including: 1) no single model excels in all aspects, with different models showing various strengths; 2) the correlation between GPT-4 assessments and manual reviews is generally high; 3) there is a trade-off between the usability and safety of text-to-video generative models. This indicates that as the field of video generation rapidly advances, safety risks are set to surge, highlighting the urgency of prioritizing video safety. We hope that T2VSafetyBench can provide insights for better understanding the safety of video generation in the era of generative AI.
Abstract（参考訳）: Soraの最近の発展は、テキスト・トゥ・ビデオ(T2V)世代の新しい時代へと繋がる。これに伴い、セキュリティリスクに対する懸念が高まっている。生成されたビデオには違法なコンテンツや非倫理的なコンテンツが含まれており、それらの安全性に関する包括的な定量的理解が欠如しており、信頼性と実践的な展開に挑戦している。これまでの評価は、主にビデオ生成の品質に焦点を当てていた。テキスト・ツー・イメージ・モデルのいくつかの評価は安全性を考慮しているが、より少ない側面をカバーし、ビデオ生成に固有のユニークな時間的リスクに対処しない。この研究ギャップを埋めるために,テキスト・ツー・ビデオモデルの安全性クリティカルな評価を行うために設計された新しいベンチマークであるT2VSafetyBenchを紹介する。ビデオ生成の安全性の12つの重要な側面を定義し、実世界のプロンプト、LLM生成プロンプト、ジェイルブレイク攻撃に基づくプロンプトを含む悪意のあるプロンプトデータセットを構築する。評価結果から,いくつかの重要な知見が得られた。 1) 異なるモデルが様々な強みを示すため,すべての面において単一のモデルが優れているものはない。 2) GPT-4評価とマニュアルレビューの相関は概ね高い。 3)テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。このことは、ビデオ生成の分野が急速に進歩するにつれて、安全リスクが急上昇し、ビデオ安全性の優先順位付けの急激さが浮き彫りになることを示している。我々は、T2VSafetyBenchが、生成AI時代のビデオ生成の安全性をよりよく理解するための洞察を提供することを期待している。

関連論文リスト

HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文参考訳（メタデータ） (2025-05-17T05:06:38Z)
BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation [37.055665794706336]
テキスト・ツー・ビデオ(T2V)生成モデルは急速に進歩し、エンターテイメント、教育、マーケティングといった分野に広く応用されている。我々は、T2V生成タスクにおいて、生成されたビデオはテキストプロンプトに明示的に指定されていないかなりの冗長な情報を含むことが多いことを観察する。我々は、T2V生成に適した最初のバックドアアタックフレームワークであるBadVideoを紹介した。
論文参考訳（メタデータ） (2025-04-23T17:34:48Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。 VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。 VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文参考訳（メタデータ） (2025-03-27T17:57:01Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings [51.65890794988425]
本研究は,DeepSeekモデルの最初の包括的安全性評価である。評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
論文参考訳（メタデータ） (2025-03-19T10:44:37Z)
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文参考訳（メタデータ） (2025-01-22T03:29:43Z)
Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。 ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。 ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文参考訳（メタデータ） (2024-11-15T16:29:02Z)
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文参考訳（メタデータ） (2024-10-16T17:32:23Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。 TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文参考訳（メタデータ） (2024-09-28T04:37:09Z)
Towards Understanding Unsafe Video Generation [10.269782780518428]
ビデオ生成モデル(VGM)は高品質な出力を合成する能力を実証している。安全でないビデオカテゴリーは、Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, Politicalの5つです。次に、安全でないビデオの発生を防ぐための防御機構について検討する。
論文参考訳（メタデータ） (2024-07-17T14:07:22Z)
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文参考訳（メタデータ） (2024-05-24T07:44:27Z)
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文参考訳（メタデータ） (2024-02-14T22:21:12Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation [100.23111948079037]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文参考訳（メタデータ） (2023-11-25T04:05:59Z)
Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety of Text-to-Image Models [6.475537049815622]
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
論文参考訳（メタデータ） (2023-05-22T15:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。