論文の概要: LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
- arxiv url: http://arxiv.org/abs/2406.05113v2
- Date: Fri, 31 Jan 2025 15:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:00:05.799867
- Title: LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
- Title(参考訳): LlavaGuard: ビジョンデータセットとモデルを保護するためのオープンなVLMベースのフレームワーク
- Authors: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski,
- Abstract要約: LlavaGuardはVLMベースの視覚保護装置のスイートで、大規模データとモデルの時代における信頼性の高いガードレールの必要性に対処する。
我々は、カスタマイズ可能な安全分類、データ前処理、拡張、トレーニング設定を記述する新しいオープンフレームワークを確立する。
我々は,LlavaGuardの大規模データセットアノテーションとテキスト・ツー・イメージ・モデルのモデレーションという,2つの実世界のアプリケーションでの性能を実演する。
- 参考スコア(独自算出の注目度): 26.148022772521493
- License:
- Abstract: This paper introduces LlavaGuard, a suite of VLM-based vision safeguards that address the critical need for reliable guardrails in the era of large-scale data and models. To this end, we establish a novel open framework, describing a customizable safety taxonomy, data preprocessing, augmentation, and training setup. For teaching a VLM safeguard on safety, we further create a multimodal safety dataset with high-quality human expert annotations, where each image is labeled with a safety rating, category and rationale. We also employ advanced augmentations to support context-specific assessments. The resulting LlavaGuard models, ranging from 0.5B to 7B, serve as a versatile tool for evaluating the safety compliance of visual content against flexible policies. In comprehensive experiments, LlavaGuard outperforms both state-of-the-art safeguards and VLMs in accuracy and in flexibly handling different policies. Additionally, we demonstrate LlavaGuard's performance in two real-world applications: large-scale dataset annotation and moderation of text-to-image models. We make our entire framework publicly available, including the dataset and model weights.
- Abstract(参考訳): 本稿では,大規模データとモデルの時代において,信頼性の高いガードレールの必要性に対処する,VLMベースの視覚保護装置であるLlavaGuardを紹介する。
この目的のために、我々は、カスタマイズ可能な安全分類、データ前処理、拡張、トレーニング設定を記述する新しいオープンフレームワークを構築した。
VLMセーフガードの安全性を教えるために,高品質な人的専門家アノテーションを用いたマルチモーダル安全データセットを作成し,各画像に安全性評価,カテゴリ,合理性をラベル付けする。
また、文脈特異的アセスメントをサポートするために、高度な拡張も採用しています。
0.5Bから7BまでのLlavaGuardモデルは、フレキシブルポリシーに対するビジュアルコンテンツの安全性コンプライアンスを評価する汎用ツールとして機能する。
総合的な実験では、LlavaGuardは最先端の安全ガードとVLMの両方を精度良く、異なるポリシーを柔軟に処理する。
さらに、LlavaGuardの大規模データセットアノテーションとテキスト・ツー・イメージ・モデルのモデレーションという、2つの実世界のアプリケーションでの性能を実証する。
データセットやモデルの重みを含むフレームワーク全体を公開しています。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - Enhancing User-Centric Privacy Protection: An Interactive Framework through Diffusion Models and Machine Unlearning [54.30994558765057]
この研究は、データ共有とモデル公開の間、画像データのプライバシーを同時に保護する包括的なプライバシー保護フレームワークのパイオニアだ。
本稿では、生成機械学習モデルを用いて属性レベルで画像情報を修正するインタラクティブな画像プライバシー保護フレームワークを提案する。
本フレームワークでは、画像中の属性情報を保護する差分プライバシー拡散モデルと、修正された画像データセット上でトレーニングされたモデルの効率的な更新を行う特徴未学習アルゴリズムの2つのモジュールをインスタンス化する。
論文 参考訳(メタデータ) (2024-09-05T07:55:55Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。