論文の概要: LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
- arxiv url: http://arxiv.org/abs/2406.05113v2
- Date: Fri, 31 Jan 2025 15:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:00:05.799867
- Title: LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
- Title(参考訳): LlavaGuard: ビジョンデータセットとモデルを保護するためのオープンなVLMベースのフレームワーク
- Authors: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski,
- Abstract要約: LlavaGuardはVLMベースの視覚保護装置のスイートで、大規模データとモデルの時代における信頼性の高いガードレールの必要性に対処する。
我々は、カスタマイズ可能な安全分類、データ前処理、拡張、トレーニング設定を記述する新しいオープンフレームワークを確立する。
我々は,LlavaGuardの大規模データセットアノテーションとテキスト・ツー・イメージ・モデルのモデレーションという,2つの実世界のアプリケーションでの性能を実演する。
- 参考スコア(独自算出の注目度): 26.148022772521493
- License:
- Abstract: This paper introduces LlavaGuard, a suite of VLM-based vision safeguards that address the critical need for reliable guardrails in the era of large-scale data and models. To this end, we establish a novel open framework, describing a customizable safety taxonomy, data preprocessing, augmentation, and training setup. For teaching a VLM safeguard on safety, we further create a multimodal safety dataset with high-quality human expert annotations, where each image is labeled with a safety rating, category and rationale. We also employ advanced augmentations to support context-specific assessments. The resulting LlavaGuard models, ranging from 0.5B to 7B, serve as a versatile tool for evaluating the safety compliance of visual content against flexible policies. In comprehensive experiments, LlavaGuard outperforms both state-of-the-art safeguards and VLMs in accuracy and in flexibly handling different policies. Additionally, we demonstrate LlavaGuard's performance in two real-world applications: large-scale dataset annotation and moderation of text-to-image models. We make our entire framework publicly available, including the dataset and model weights.
- Abstract(参考訳): 本稿では,大規模データとモデルの時代において,信頼性の高いガードレールの必要性に対処する,VLMベースの視覚保護装置であるLlavaGuardを紹介する。
この目的のために、我々は、カスタマイズ可能な安全分類、データ前処理、拡張、トレーニング設定を記述する新しいオープンフレームワークを構築した。
VLMセーフガードの安全性を教えるために,高品質な人的専門家アノテーションを用いたマルチモーダル安全データセットを作成し,各画像に安全性評価,カテゴリ,合理性をラベル付けする。
また、文脈特異的アセスメントをサポートするために、高度な拡張も採用しています。
0.5Bから7BまでのLlavaGuardモデルは、フレキシブルポリシーに対するビジュアルコンテンツの安全性コンプライアンスを評価する汎用ツールとして機能する。
総合的な実験では、LlavaGuardは最先端の安全ガードとVLMの両方を精度良く、異なるポリシーを柔軟に処理する。
さらに、LlavaGuardの大規模データセットアノテーションとテキスト・ツー・イメージ・モデルのモデレーションという、2つの実世界のアプリケーションでの性能を実証する。
データセットやモデルの重みを含むフレームワーク全体を公開しています。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
幅の面では、SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエスト、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験結果から,SPA-VLデータセット上のアライメント技術を用いてトレーニングしたモデルでは,コア機能を維持しながら,無害性と有用性を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-17T18:57:37Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。