論文の概要: ShieldGemma 2: Robust and Tractable Image Content Moderation
- arxiv url: http://arxiv.org/abs/2504.01081v2
- Date: Tue, 08 Apr 2025 18:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:04:36.821374
- Title: ShieldGemma 2: Robust and Tractable Image Content Moderation
- Title(参考訳): ShieldGemma 2:ロバストでトラクタブルな画像コンテンツモデレーション
- Authors: Wenjun Zeng, Dana Kurniawan, Ryan Mullins, Yuchi Liu, Tamoghna Saha, Dirichi Ike-Njoku, Jindong Gu, Yiwen Song, Cai Xu, Jingjing Zhou, Aparna Joshi, Shravan Dheep, Mani Malek, Hamid Palangi, Joon Baek, Rick Pereira, Karthik Narasimhan,
- Abstract要約: ShieldGemma 2はGemma 3上に構築された4Bパラメータの画像コンテンツモデレーションモデルである。
このモデルでは、Sexually Explicit、Violence & Gore、Dangerous Contentの合成画像に対して、以下の主要な危険カテゴリにわたって堅牢な安全性リスク予測を提供する。
- 参考スコア(独自算出の注目度): 63.36923375135708
- License:
- Abstract: We introduce ShieldGemma 2, a 4B parameter image content moderation model built on Gemma 3. This model provides robust safety risk predictions across the following key harm categories: Sexually Explicit, Violence \& Gore, and Dangerous Content for synthetic images (e.g. output of any image generation model) and natural images (e.g. any image input to a Vision-Language Model). We evaluated on both internal and external benchmarks to demonstrate state-of-the-art performance compared to LlavaGuard \citep{helff2024llavaguard}, GPT-4o mini \citep{hurst2024gpt}, and the base Gemma 3 model \citep{gemma_2025} based on our policies. Additionally, we present a novel adversarial data generation pipeline which enables a controlled, diverse, and robust image generation. ShieldGemma 2 provides an open image moderation tool to advance multimodal safety and responsible AI development.
- Abstract(参考訳): Gemma 3上に構築された4Bパラメータ画像コンテンツモデレーションモデルであるShieldGemma 2を紹介する。
このモデルでは、Sexually Explicit、Violence \& Gore、および合成画像(例えば、画像生成モデルの出力)と自然画像(例えば、ビジョン・ランゲージ・モデルに入力された画像など)に対する危険コンテンツなど、主要な危険カテゴリにわたって堅牢な安全リスク予測を提供する。
LlavaGuard \citep{helff2024llavaguard}, GPT-4o mini \citep{hurst2024gpt}, and the base Gemma 3 model \citep{gemma_2025}と比較して、内部および外部のベンチマークを用いて、最先端の性能を示す。
さらに,制御,多様性,ロバストな画像生成が可能な,新たな逆データ生成パイプラインを提案する。
ShieldGemma 2は、マルチモーダル安全性と責任あるAI開発を促進するための、オープンイメージモデレーションツールを提供する。
関連論文リスト
- Uncovering Vision Modality Threats in Image-to-Image Tasks [26.681274483708165]
本稿では,様々な画像生成モデルが視覚的モダリティの脅威に直面することを明らかにするために,タイポグラフィー攻撃という手法を用いる。
また,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
論文 参考訳(メタデータ) (2024-12-07T04:55:39Z) - Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。
T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。
本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T05:12:30Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - A Comparative Study of Image Disguising Methods for Confidential
Outsourced Learning [5.73658856166614]
InstaHide と DisguizedNets という新しいエンフィメージ・ディスガージング機構について検討・比較を行った。
DisguisedNetsは、画像ブロック化、ブロックレベルのランダムな置換、および2つのブロックレベルのセキュアな変換を組み合わせた新しい組み合わせである。
InstaHideは画像ミックスアップとランダムピクセルフリップ技術である。
マルチレベル脅威モデルを用いて解析および評価を行った。
論文 参考訳(メタデータ) (2022-12-31T16:59:54Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。