Fugu-MT 論文翻訳(概要): Divide and Conquer: A Hybrid Strategy Defeats Multimodal Large Language Models

論文の概要: Divide and Conquer: A Hybrid Strategy Defeats Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2412.16555v1
Date: Sat, 21 Dec 2024 09:43:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.988625
Title: Divide and Conquer: A Hybrid Strategy Defeats Multimodal Large Language Models
Title（参考訳）: Divide and Conquer: マルチモーダルな大規模言語モデルに対するハイブリッド戦略
Authors: Yanxu Mao, Peipei Liu, Tiehan Cui, Congying Liu, Datao You,
Abstract要約: 本稿では,マルチモーダルジェイルブレイク手法であるJMLLMを提案する。テキスト、視覚、聴覚のモダリティにわたって包括的なジェイルブレイク攻撃を実行するために、複数の戦略を統合する。また、マルチモーダルジェイルブレイク研究のための新しい包括的データセットTriJailも提供します。
参考スコア（独自算出の注目度）: 1.0291559330120414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are widely applied in various fields of society due to their powerful reasoning, understanding, and generation capabilities. However, the security issues associated with these models are becoming increasingly severe. Jailbreaking attacks, as an important method for detecting vulnerabilities in LLMs, have been explored by researchers who attempt to induce these models to generate harmful content through various attack methods. Nevertheless, existing jailbreaking methods face numerous limitations, such as excessive query counts, limited coverage of jailbreak modalities, low attack success rates, and simplistic evaluation methods. To overcome these constraints, this paper proposes a multimodal jailbreaking method: JMLLM. This method integrates multiple strategies to perform comprehensive jailbreak attacks across text, visual, and auditory modalities. Additionally, we contribute a new and comprehensive dataset for multimodal jailbreaking research: TriJail, which includes jailbreak prompts for all three modalities. Experiments on the TriJail dataset and the benchmark dataset AdvBench, conducted on 13 popular LLMs, demonstrate advanced attack success rates and significant reduction in time overhead.
Abstract（参考訳）: 大規模言語モデル(LLM)は、強力な推論、理解、生成能力のため、社会の様々な分野に広く適用されている。しかし、これらのモデルに関連するセキュリティ問題はますます深刻化している。 LLMの脆弱性を検出する重要な方法である脱獄攻撃は、様々な攻撃方法で有害なコンテンツを生成するためにこれらのモデルを誘導しようとする研究者によって調査されてきた。それでも、既存のjailbreakメソッドには、過剰なクエリ数、Jailbreakのモダリティの制限、攻撃成功率の低下、単純性評価方法など、数多くの制限がある。このような制約を克服するため,本稿ではマルチモーダルジェイルブレイク手法であるJMLLMを提案する。この手法は、テキスト、視覚、聴覚のモダリティにわたって包括的なジェイルブレイク攻撃を実行するための複数の戦略を統合する。さらに、マルチモーダルなジェイルブレイク研究のための新しい包括的データセットTriJailも提供しています。 TriJailデータセットとベンチマークデータセットであるAdvBenchの実験は、13の人気のあるLLM上で行われ、高度な攻撃成功率と時間オーバーヘッドの大幅な削減を示している。

関連論文リスト

Multi-turn Jailbreaking via Global Refinement and Active Fabrication [29.84573206944952]
本稿では,各インタラクションにおいてジェイルブレーキングパスを世界規模で洗練する,新しいマルチターンジェイルブレーキング手法を提案する。実験により,既存の単ターン・多ターンジェイルブレイク技術と比較して,本手法の優れた性能を示した。
論文参考訳（メタデータ） (2025-06-22T03:15:05Z)
JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。 JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文参考訳（メタデータ） (2025-04-03T05:00:28Z)
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文参考訳（メタデータ） (2025-02-27T06:49:16Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models [3.452274739430025]
本研究では,HIMRDと呼ばれる2つの要素からなるマルチモーダルジェイルブレイク攻撃手法を提案する。理解促進プロンプトは、MLLMが悪意のあるプロンプトと誘導プロンプトを再構築するのに役立ち、肯定的な出力の可能性を高める。このアプローチはMLLMの脆弱性を効果的に発見し、人気の高い7つのオープンソースMLLMの平均攻撃成功率は90%、人気の高い3つのオープンソースMLLMの平均攻撃成功率は約68%に達する。
論文参考訳（メタデータ） (2024-12-08T13:20:45Z)
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。 LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文参考訳（メタデータ） (2024-11-06T10:32:09Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。実験では、IDEATORは平均5.34クエリでMiniGPT-4をジェイルブレイクする際に94%の攻撃成功率(ASR)を達成した。 IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
本稿では, LLM と MLLM をまたいだジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。 JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。 15の既知の攻撃タイプにわたる11,000のデータ項目を含む、最初の総合的なマルチモーダルアタックデータセットを構築します。
論文参考訳（メタデータ） (2023-12-17T17:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。