論文の概要: Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy
- arxiv url: http://arxiv.org/abs/2503.20823v1
- Date: Wed, 26 Mar 2025 01:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:42.604209
- Title: Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy
- Title(参考訳): フールをプレイする: アウト・オブ・ディストリビューション戦略によるジェイルブレイクLDMとマルチモーダルLDM
- Authors: Joonhyun Jeong, Seyun Bae, Yeonsung Jung, Jaeryong Hwang, Eunho Yang,
- Abstract要約: 安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
- 参考スコア(独自算出の注目度): 31.03584769307822
- License:
- Abstract: Despite the remarkable versatility of Large Language Models (LLMs) and Multimodal LLMs (MLLMs) to generalize across both language and vision tasks, LLMs and MLLMs have shown vulnerability to jailbreaking, generating textual outputs that undermine safety, ethical, and bias standards when exposed to harmful or sensitive inputs. With the recent advancement of safety alignment via preference-tuning from human feedback, LLMs and MLLMs have been equipped with safety guardrails to yield safe, ethical, and fair responses with regard to harmful inputs. However, despite the significance of safety alignment, research on the vulnerabilities remains largely underexplored. In this paper, we investigate the unexplored vulnerability of the safety alignment, examining its ability to consistently provide safety guarantees for out-of-distribution(OOD)-ifying harmful inputs that may fall outside the aligned data distribution. Our key observation is that OOD-ifying the vanilla harmful inputs highly increases the uncertainty of the model to discern the malicious intent within the input, leading to a higher chance of being jailbroken. Exploiting this vulnerability, we propose JOOD, a new Jailbreak framework via OOD-ifying inputs beyond the safety alignment. We explore various off-the-shelf visual and textual transformation techniques for OOD-ifying the harmful inputs. Notably, we observe that even simple mixing-based techniques such as image mixup prove highly effective in increasing the uncertainty of the model, thereby facilitating the bypass of the safety alignment. Experiments across diverse jailbreak scenarios demonstrate that JOOD effectively jailbreaks recent proprietary LLMs and MLLMs such as GPT-4 and o1 with high attack success rate, which previous attack approaches have consistently struggled to jailbreak. Code is available at https://github.com/naver-ai/JOOD.
- Abstract(参考訳): 大きな言語モデル (LLM) とマルチモーダル LLM (MLLM) が言語と視覚の両方のタスクにまたがって一般化しているにもかかわらず、LLM と MLLM はジェイルブレイクの脆弱性を示し、安全、倫理、偏見の基準を損なうようなテキスト出力を生成している。
近年、人間のフィードバックからの好み調整による安全調整の進歩により、LSMとMLLMは安全ガードレールを備え、有害な入力に対して安全で倫理的で公正な応答を得られるようになった。
しかし、安全アライメントの重要性にもかかわらず、脆弱性の研究はほとんど未調査のままである。
本稿では,安全アライメントの未解明の脆弱性について検討し,アライメントされたデータ分布から外れる可能性のある有害な入力を,アウト・オブ・ディストリビューション(OOD)の安全保証を一貫して提供する能力について検討する。
我々のキーとなる観察は、バニラの有害な入力をOOD化することで、入力内の悪意のある意図を識別するモデルの不確実性が高くなり、ジェイルブレイクされる可能性が高くなることである。
この脆弱性を突破し、安全アライメント以上の入力をOOD化することで、新しい Jailbreak フレームワーク JOOD を提案する。
我々は、有害な入力をOOD化するための様々な視覚的およびテキスト的変換手法を探索する。
特に、画像混合のような単純な混合技術でさえ、モデルの不確実性を高め、安全アライメントのバイパスを容易にするのに非常に有効であることを示す。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMと、GPT-4やo1のようなMLLMを攻撃の成功率で効果的にジェイルブレイクすることを示した。
コードはhttps://github.com/naver-ai/JOOD.comで入手できる。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [20.154877919740322]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。