論文の概要: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment
- arxiv url: http://arxiv.org/abs/2406.05113v1
- Date: Fri, 7 Jun 2024 17:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:02:56.878773
- Title: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment
- Title(参考訳): LLavaGuard: ビジョンデータセットのキュレーションと安全性評価のためのVLMベースのセーフガード
- Authors: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski,
- Abstract要約: VLMベースのセーフガードモデルのファミリーであるLlavaGuardを紹介します。
LlavaGuardは、ビジュアルコンテンツの安全性コンプライアンスを評価するための汎用的なフレームワークを提供する。
我々の実験は、複雑な実世界のアプリケーションにおけるLlavaGuardの機能を強調した。
- 参考スコア(独自算出の注目度): 26.148022772521493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LlavaGuard, a family of VLM-based safeguard models, offering a versatile framework for evaluating the safety compliance of visual content. Specifically, we designed LlavaGuard for dataset annotation and generative model safeguarding. To this end, we collected and annotated a high-quality visual dataset incorporating a broad safety taxonomy, which we use to tune VLMs on context-aware safety risks. As a key innovation, LlavaGuard's new responses contain comprehensive information, including a safety rating, the violated safety categories, and an in-depth rationale. Further, our introduced customizable taxonomy categories enable the context-specific alignment of LlavaGuard to various scenarios. Our experiments highlight the capabilities of LlavaGuard in complex and real-world applications. We provide checkpoints ranging from 7B to 34B parameters demonstrating state-of-the-art performance, with even the smallest models outperforming baselines like GPT-4. We make our dataset and model weights publicly available and invite further research to address the diverse needs of communities and contexts.
- Abstract(参考訳): VLMベースのセーフガードモデルのファミリーであるLlavaGuardを紹介し、視覚コンテンツの安全コンプライアンスを評価するための汎用的なフレームワークを提供する。
具体的には,データセットアノテーションと生成モデル保護のためのLlavaGuardを設計した。
この目的のために、我々は、広義の安全分類を取り入れた高品質な視覚データセットを収集し、注釈付けした。
重要なイノベーションとして、LlavaGuard氏の回答には、安全性評価、違反した安全性カテゴリ、詳細な根拠など、包括的な情報が含まれている。
さらに、我々の導入したカスタマイズ可能な分類カテゴリは、LlavaGuardのコンテキスト固有のアライメントを様々なシナリオで実現します。
我々の実験は、複雑な実世界のアプリケーションにおけるLlavaGuardの機能を強調した。
GPT-4のようなベースラインよりも小さいモデルでさえも、最先端のパフォーマンスを示す7Bから34Bパラメータの範囲のチェックポイントを提供する。
データセットとモデルウェイトを公開し、コミュニティとコンテキストの多様なニーズに対応するためにさらなる研究を招待します。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - Enhancing User-Centric Privacy Protection: An Interactive Framework through Diffusion Models and Machine Unlearning [54.30994558765057]
この研究は、データ共有とモデル公開の間、画像データのプライバシーを同時に保護する包括的なプライバシー保護フレームワークのパイオニアだ。
本稿では、生成機械学習モデルを用いて属性レベルで画像情報を修正するインタラクティブな画像プライバシー保護フレームワークを提案する。
本フレームワークでは、画像中の属性情報を保護する差分プライバシー拡散モデルと、修正された画像データセット上でトレーニングされたモデルの効率的な更新を行う特徴未学習アルゴリズムの2つのモジュールをインスタンス化する。
論文 参考訳(メタデータ) (2024-09-05T07:55:55Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。