論文の概要: MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance
- arxiv url: http://arxiv.org/abs/2401.02906v1
- Date: Fri, 5 Jan 2024 17:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:41:48.253284
- Title: MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance
- Title(参考訳): MLLM-Protector:HurtingパフォーマンスのないMLLMの安全性を保証する
- Authors: Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong,
Jipeng Zhang, Tong Zhang
- Abstract要約: MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
- 参考スコア(独自算出の注目度): 31.043844145980675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of multimodal large language models (MLLMs) has brought forth
a unique vulnerability: susceptibility to malicious attacks through visual
inputs. We delve into the novel challenge of defending MLLMs against such
attacks. We discovered that images act as a "foreign language" that is not
considered during alignment, which can make MLLMs prone to producing harmful
responses. Unfortunately, unlike the discrete tokens considered in text-based
LLMs, the continuous nature of image signals presents significant alignment
challenges, which poses difficulty to thoroughly cover the possible scenarios.
This vulnerability is exacerbated by the fact that open-source MLLMs are
predominantly fine-tuned on limited image-text pairs that is much less than the
extensive text-based pretraining corpus, which makes the MLLMs more prone to
catastrophic forgetting of their original abilities during explicit alignment
tuning. To tackle these challenges, we introduce MLLM-Protector, a
plug-and-play strategy combining a lightweight harm detector and a response
detoxifier. The harm detector's role is to identify potentially harmful outputs
from the MLLM, while the detoxifier corrects these outputs to ensure the
response stipulates to the safety standards. This approach effectively
mitigates the risks posed by malicious visual inputs without compromising the
model's overall performance. Our results demonstrate that MLLM-Protector offers
a robust solution to a previously unaddressed aspect of MLLM security.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の展開は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を生み出した。
我々はこのような攻撃に対してMLLMを防衛するという新しい挑戦を掘り下げる。
画像はアライメント中に考慮されない「外国語」として機能し,mllmが有害な反応を生じやすいことを発見した。
残念なことに、テキストベースのLLMで考慮された離散トークンとは異なり、画像信号の連続的な性質は重要なアライメント課題を示しており、起こりうるシナリオを完全にカバーすることが困難である。
この脆弱性は、オープンソースのMLLMが、広範囲のテキストベースの事前学習コーパスよりもはるかに少ない制限された画像テキストペアに対して、主に微調整されているという事実によって悪化する。
これらの課題に対処するために,軽量なハーモ検出器と応答除毒器を組み合わせたプラグアンドプレイ戦略であるMLLM-Protectorを導入する。
害検知器の役割は、MLLMから潜在的に有害な出力を識別することであり、一方、除毒剤はこれらの出力を補正し、その応答が安全基準に規定されていることを保証する。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
MLLM-Protectorは,MLLMセキュリティの未適応な側面に対して,堅牢なソリューションを提供することを示す。
関連論文リスト
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Refusing Safe Prompts for Multi-modal Large Language Models [36.276781604895454]
安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。
本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。
4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
論文 参考訳(メタデータ) (2024-07-12T07:18:05Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。