Fugu-MT 論文翻訳(概要): Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

論文の概要: Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

arxiv url: http://arxiv.org/abs/2402.02207v1
Date: Sat, 3 Feb 2024 16:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:27:11.356190
Title: Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models
Title（参考訳）: コストのない(ほとんど)安全性の微調整 - vision large language model のベースライン
Authors: Yongshuo Zong, Ondrej Bohdal, Tingyang Yu, Yongxin Yang, Timothy Hospedales
Abstract要約: 現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
参考スコア（独自算出の注目度）: 42.44428860052108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current vision large language models (VLLMs) exhibit remarkable capabilities yet are prone to generate harmful content and are vulnerable to even the simplest jailbreaking attacks. Our initial analysis finds that this is due to the presence of harmful data during vision-language instruction fine-tuning, and that VLLM fine-tuning can cause forgetting of safety alignment previously learned by the underpinning LLM. To address this issue, we first curate a vision-language safe instruction-following dataset VLGuard covering various harmful categories. Our experiments demonstrate that integrating this dataset into standard vision-language fine-tuning or utilizing it for post-hoc fine-tuning effectively safety aligns VLLMs. This alignment is achieved with minimal impact on, or even enhancement of, the models' helpfulness. The versatility of our safety fine-tuning dataset makes it a valuable resource for safety-testing existing VLLMs, training new models or safeguarding pre-trained VLLMs. Empirical results demonstrate that fine-tuned VLLMs effectively reject unsafe instructions and substantially reduce the success rates of several black-box adversarial attacks, which approach zero in many cases. The code and dataset are available at https://github.com/ys-zong/VLGuard.
Abstract（参考訳）: 現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成しやすく、最も単純なジェイルブレイク攻撃にも脆弱である。我々の初期分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であり、VLLM微調整は、以前にLLMが学習した安全アライメントを忘れてしまう可能性がある。この問題に対処するために、まず、様々な有害カテゴリをカバーする視覚言語安全な命令フォローデータセットVLGuardをキュレートする。我々の実験は、このデータセットを標準的な視覚言語による微調整に統合するか、あるいはポストホックな微調整に利用することで、VLLMを効果的に適合させることを示した。このアライメントは、モデルの有用性に最小限の影響、あるいは強化することで達成される。安全微調整データセットの汎用性により、既存のVLLMの安全性テスト、新しいモデルのトレーニング、トレーニング済みのVLLMの保護に有用なリソースになります。実験の結果, 微調整VLLMは安全でない命令を効果的に拒否し, ブラックボックス攻撃の成功率を大幅に低下させ, 多くの場合ゼロに近づいた。コードとデータセットはhttps://github.com/ys-zong/vlguardで入手できる。

関連論文リスト

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文参考訳（メタデータ） (2025-07-24T17:59:24Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-03-24T20:41:57Z)
Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [21.441662865727448]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文参考訳（メタデータ） (2024-11-18T13:01:57Z)
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応) 安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文参考訳（メタデータ） (2024-10-10T03:12:03Z)
Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-18T08:04:24Z)
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。幅の面では、SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエスト、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。実験結果から,SPA-VLデータセット上のアライメント技術を用いてトレーニングしたモデルでは,コア機能を維持しながら,無害性と有用性を大幅に向上することが示唆された。
論文参考訳（メタデータ） (2024-06-17T18:57:37Z)
Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文参考訳（メタデータ） (2024-05-22T12:21:27Z)
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文参考訳（メタデータ） (2023-11-27T18:59:42Z)
Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T09:18:21Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。