論文の概要: Refusing Safe Prompts for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2407.09050v2
- Date: Thu, 5 Sep 2024 21:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 18:20:31.094448
- Title: Refusing Safe Prompts for Multi-modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための安全プロンプトの再利用
- Authors: Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong,
- Abstract要約: 安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。
本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。
4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
- 参考スコア(独自算出の注目度): 36.276781604895454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have become the cornerstone of today's generative AI ecosystem, sparking intense competition among tech giants and startups. In particular, an MLLM generates a text response given a prompt consisting of an image and a question. While state-of-the-art MLLMs use safety filters and alignment techniques to refuse unsafe prompts, in this work, we introduce MLLM-Refusal, the first method that induces refusals for safe prompts. In particular, our MLLM-Refusal optimizes a nearly-imperceptible refusal perturbation and adds it to an image, causing target MLLMs to likely refuse a safe prompt containing the perturbed image and a safe question. Specifically, we formulate MLLM-Refusal as a constrained optimization problem and propose an algorithm to solve it. Our method offers competitive advantages for MLLM model providers by potentially disrupting user experiences of competing MLLMs, since competing MLLM's users will receive unexpected refusals when they unwittingly use these perturbed images in their prompts. We evaluate MLLM-Refusal on four MLLMs across four datasets, demonstrating its effectiveness in causing competing MLLMs to refuse safe prompts while not affecting non-competing MLLMs. Furthermore, we explore three potential countermeasures-adding Gaussian noise, DiffPure, and adversarial training. Our results show that though they can mitigate MLLM-Refusal's effectiveness, they also sacrifice the accuracy and/or efficiency of the competing MLLM. The code is available at https://github.com/Sadcardation/MLLM-Refusal.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、今日の生成AIエコシステムの基盤となり、テック大企業やスタートアップの間で激しい競争を巻き起こしている。
特に、MLLMは、画像と質問からなるプロンプトが与えられたテキスト応答を生成する。
最先端のMLLMは安全フィルタとアライメント技術を用いて安全でないプロンプトを拒否するが,本研究では,安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。
特に、MLLM-Refusalは、ほとんど認識不能な拒絶摂動を最適化し、画像を付加するので、ターゲットMLLMは、摂動画像と安全な質問を含む安全なプロンプトを拒否する可能性が高い。
具体的には,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。
本手法は,MLLM のユーザエクスペリエンスを損なう可能性を秘めているため,MLLM モデルプロバイダに対して競争上の優位性を提供する。
4つのデータセットにわたるMLLMに対するMLLM-Refusalの評価を行い、競合するMLLMが非競合MLLMに影響を与えずに安全なプロンプトを拒否する効果を示した。
さらに, ガウス雑音, DiffPure, 対人訓練の3つの潜在的な対策について検討した。
その結果,MLLM-Refusalの有効性は軽減できるものの,競合するMLLMの精度や効率を犠牲にできることがわかった。
コードはhttps://github.com/Sadcardation/MLLM-Refusalで入手できる。
関連論文リスト
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU [14.719538667881311]
Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-09-11T12:44:12Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。