論文の概要: Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2405.04403v1
- Date: Tue, 7 May 2024 15:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:41:05.399235
- Title: Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks
- Title(参考訳): LLMの視覚的インストラクションチューニングは、ジェイルブレイク攻撃の危険を増す
- Authors: Georgios Pantazopoulos, Amit Parekh, Malvina Nikandrou, Alessandro Suglia,
- Abstract要約: 画像理解機能を備えた大規模言語モデルの拡張は、高パフォーマンスな視覚言語モデル(VLM)のブームをもたらした。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
- 参考スコア(独自算出の注目度): 41.213482317141356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting Large Language Models (LLMs) with image-understanding capabilities has resulted in a boom of high-performing Vision-Language models (VLMs). While studying the alignment of LLMs to human values has received widespread attention, the safety of VLMs has not received the same attention. In this paper, we explore the impact of jailbreaking on three state-of-the-art VLMs, each using a distinct modeling approach. By comparing each VLM to their respective LLM backbone, we find that each VLM is more susceptible to jailbreaking. We consider this as an undesirable outcome from visual instruction-tuning, which imposes a forgetting effect on an LLM's safety guardrails. Therefore, we provide recommendations for future work based on evaluation strategies that aim to highlight the weaknesses of a VLM, as well as take safety measures into account during visual instruction tuning.
- Abstract(参考訳): 画像理解機能を備えた大規模言語モデル(LLM)の拡張は、高パフォーマンスなビジョンランゲージモデル(VLM)のブームをもたらした。
LLMと人的価値の整合性の研究は広く注目されているが、VLMの安全性はそれほど注目されていない。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
それぞれのVLMをそれぞれのLDMバックボーンと比較することにより、各VLMはジェイルブレイクの影響を受けやすいことがわかった。
本研究は,LLMの安全ガードレールを忘れてしまう視覚的指導訓練による望ましくない結果であると考えている。
そこで本稿では,VLMの弱点を浮き彫りにすることを目的とした評価戦略に基づく今後の作業の提言と,視覚的指導指導の際の安全対策について考察する。
関連論文リスト
- VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。
VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。
本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文 参考訳(メタデータ) (2025-02-14T08:44:43Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
GLOVは、大型言語モデル(LLM)が視覚言語モデル(VLM)の暗黙エンコーダとして機能することを可能にする。
GLOVは、オブジェクト認識のためのデュアルエンコーダ(CLIP)とVLデコーダ(LlaVA)モデルに対して、最大15.0%と57.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - Failures to Find Transferable Image Jailbreaks Between Vision-Language Models [20.385314634225978]
視覚およびテキスト入力に条件付けされたテキスト出力を生成する視覚言語モデル(VLM)の一般的なクラスに焦点を当てる。
転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。
論文 参考訳(メタデータ) (2024-07-21T16:27:24Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。