論文の概要: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment
- arxiv url: http://arxiv.org/abs/2406.05113v1
- Date: Fri, 7 Jun 2024 17:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:02:56.878773
- Title: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment
- Title(参考訳): LLavaGuard: ビジョンデータセットのキュレーションと安全性評価のためのVLMベースのセーフガード
- Authors: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski,
- Abstract要約: VLMベースのセーフガードモデルのファミリーであるLlavaGuardを紹介します。
LlavaGuardは、ビジュアルコンテンツの安全性コンプライアンスを評価するための汎用的なフレームワークを提供する。
我々の実験は、複雑な実世界のアプリケーションにおけるLlavaGuardの機能を強調した。
- 参考スコア(独自算出の注目度): 26.148022772521493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LlavaGuard, a family of VLM-based safeguard models, offering a versatile framework for evaluating the safety compliance of visual content. Specifically, we designed LlavaGuard for dataset annotation and generative model safeguarding. To this end, we collected and annotated a high-quality visual dataset incorporating a broad safety taxonomy, which we use to tune VLMs on context-aware safety risks. As a key innovation, LlavaGuard's new responses contain comprehensive information, including a safety rating, the violated safety categories, and an in-depth rationale. Further, our introduced customizable taxonomy categories enable the context-specific alignment of LlavaGuard to various scenarios. Our experiments highlight the capabilities of LlavaGuard in complex and real-world applications. We provide checkpoints ranging from 7B to 34B parameters demonstrating state-of-the-art performance, with even the smallest models outperforming baselines like GPT-4. We make our dataset and model weights publicly available and invite further research to address the diverse needs of communities and contexts.
- Abstract(参考訳): VLMベースのセーフガードモデルのファミリーであるLlavaGuardを紹介し、視覚コンテンツの安全コンプライアンスを評価するための汎用的なフレームワークを提供する。
具体的には,データセットアノテーションと生成モデル保護のためのLlavaGuardを設計した。
この目的のために、我々は、広義の安全分類を取り入れた高品質な視覚データセットを収集し、注釈付けした。
重要なイノベーションとして、LlavaGuard氏の回答には、安全性評価、違反した安全性カテゴリ、詳細な根拠など、包括的な情報が含まれている。
さらに、我々の導入したカスタマイズ可能な分類カテゴリは、LlavaGuardのコンテキスト固有のアライメントを様々なシナリオで実現します。
我々の実験は、複雑な実世界のアプリケーションにおけるLlavaGuardの機能を強調した。
GPT-4のようなベースラインよりも小さいモデルでさえも、最先端のパフォーマンスを示す7Bから34Bパラメータの範囲のチェックポイントを提供する。
データセットとモデルウェイトを公開し、コミュニティとコンテキストの多様なニーズに対応するためにさらなる研究を招待します。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
幅の面では、SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエスト、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験結果から,SPA-VLデータセット上のアライメント技術を用いてトレーニングしたモデルでは,コア機能を維持しながら,無害性と有用性を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-17T18:57:37Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。