論文の概要: Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.02207v1
- Date: Sat, 3 Feb 2024 16:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:27:11.356190
- Title: Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large
Language Models
- Title(参考訳): コストのない(ほとんど)安全性の微調整 - vision large language model のベースライン
- Authors: Yongshuo Zong, Ondrej Bohdal, Tingyang Yu, Yongxin Yang, Timothy
Hospedales
- Abstract要約: 現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
- 参考スコア(独自算出の注目度): 42.44428860052108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current vision large language models (VLLMs) exhibit remarkable capabilities
yet are prone to generate harmful content and are vulnerable to even the
simplest jailbreaking attacks. Our initial analysis finds that this is due to
the presence of harmful data during vision-language instruction fine-tuning,
and that VLLM fine-tuning can cause forgetting of safety alignment previously
learned by the underpinning LLM. To address this issue, we first curate a
vision-language safe instruction-following dataset VLGuard covering various
harmful categories. Our experiments demonstrate that integrating this dataset
into standard vision-language fine-tuning or utilizing it for post-hoc
fine-tuning effectively safety aligns VLLMs. This alignment is achieved with
minimal impact on, or even enhancement of, the models' helpfulness. The
versatility of our safety fine-tuning dataset makes it a valuable resource for
safety-testing existing VLLMs, training new models or safeguarding pre-trained
VLLMs. Empirical results demonstrate that fine-tuned VLLMs effectively reject
unsafe instructions and substantially reduce the success rates of several
black-box adversarial attacks, which approach zero in many cases. The code and
dataset are available at https://github.com/ys-zong/VLGuard.
- Abstract(参考訳): 現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成しやすく、最も単純なジェイルブレイク攻撃にも脆弱である。
我々の初期分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であり、VLLM微調整は、以前にLLMが学習した安全アライメントを忘れてしまう可能性がある。
この問題に対処するために、まず、様々な有害カテゴリをカバーする視覚言語安全な命令フォローデータセットVLGuardをキュレートする。
我々の実験は、このデータセットを標準的な視覚言語による微調整に統合するか、あるいはポストホックな微調整に利用することで、VLLMを効果的に適合させることを示した。
このアライメントは、モデルの有用性に最小限の影響、あるいは強化することで達成される。
安全微調整データセットの汎用性により、既存のVLLMの安全性テスト、新しいモデルのトレーニング、トレーニング済みのVLLMの保護に有用なリソースになります。
実験の結果, 微調整VLLMは安全でない命令を効果的に拒否し, ブラックボックス攻撃の成功率を大幅に低下させ, 多くの場合ゼロに近づいた。
コードとデータセットはhttps://github.com/ys-zong/vlguardで入手できる。
関連論文リスト
- Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [21.441662865727448]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。
提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文 参考訳(メタデータ) (2024-11-18T13:01:57Z) - How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応)
安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文 参考訳(メタデータ) (2024-10-10T03:12:03Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
幅の面では、SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエスト、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験結果から,SPA-VLデータセット上のアライメント技術を用いてトレーニングしたモデルでは,コア機能を維持しながら,無害性と有用性を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-17T18:57:37Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。