Fugu-MT 論文翻訳(概要): Jailbreaking with Universal Multi-Prompts

論文の概要: Jailbreaking with Universal Multi-Prompts

arxiv url: http://arxiv.org/abs/2502.01154v1
Date: Mon, 03 Feb 2025 08:44:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.452208
Title: Jailbreaking with Universal Multi-Prompts
Title（参考訳）: ユニバーサルマルチプロンプトによる脱獄
Authors: Yu-Ling Hsu, Hsuan Su, Shang-Tse Chen,
Abstract要約: JUMPは大規模言語モデル(LLM)をジェイルブレイクするためのプロンプトベースの手法である。また,DuMPと呼ばれる防衛手法にも適応し,汎用マルチプロンプトの最適化手法が既存の技術より優れていることを示す実験結果を得た。
参考スコア（独自算出の注目度）: 1.8605703487638678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have seen rapid development in recent years, revolutionizing various applications and significantly enhancing convenience and productivity. However, alongside their impressive capabilities, ethical concerns and new types of attacks, such as jailbreaking, have emerged. While most prompting techniques focus on optimizing adversarial inputs for individual cases, resulting in higher computational costs when dealing with large datasets. Less research has addressed the more general setting of training a universal attacker that can transfer to unseen tasks. In this paper, we introduce JUMP, a prompt-based method designed to jailbreak LLMs using universal multi-prompts. We also adapt our approach for defense, which we term DUMP. Experimental results demonstrate that our method for optimizing universal multi-prompts outperforms existing techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)は近年急速に発展し、様々なアプリケーションに革命をもたらし、利便性と生産性を大幅に向上させた。しかし、その印象的な能力、倫理的懸念、そしてジェイルブレイクのような新たなタイプの攻撃が出現した。ほとんどのプロンプト技術は個々のケースに対する敵入力の最適化に重点を置いているが、大きなデータセットを扱う場合の計算コストは高い。あまりの研究は、目に見えないタスクに移行できる普遍的な攻撃者を訓練するという、より一般的な設定に対処していない。本稿では,JUMPについて紹介する。JUMPは汎用マルチプロンプトを用いて,LDMをジェイルブレイクするためのプロンプトベースの手法である。我々はまた、防衛のためのアプローチにも適応し、DUMPと呼んでいます。実験により,汎用マルチプロンプトの最適化手法が既存の手法より優れていることが示された。

関連論文リスト

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks [3.8246557700763715]
中間モデル表現のレベルにおけるCrescendoマルチターンジェイルブレイクの有効性について検討する。本研究は, シングルターンジェイルブレイク防御が多ターン攻撃に対して一般的に効果がない理由を説明するのに有効である。
論文参考訳（メタデータ） (2025-06-29T23:28:55Z)
VERA: Variational Inference Framework for Jailbreaking Large Language Models [15.03256687264469]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。 VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文参考訳（メタデータ） (2025-06-27T22:22:00Z)
Multi-turn Jailbreaking via Global Refinement and Active Fabrication [29.84573206944952]
本稿では,各インタラクションにおいてジェイルブレーキングパスを世界規模で洗練する,新しいマルチターンジェイルブレーキング手法を提案する。実験により,既存の単ターン・多ターンジェイルブレイク技術と比較して,本手法の優れた性能を示した。
論文参考訳（メタデータ） (2025-06-22T03:15:05Z)
LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs [13.432303050813864]
LARGOは,流水性脱獄プロンプトを発生させる新規な潜伏自己反射攻撃である。 AdvBenchやJailbreakBenchのようなベンチマークでは、AutoDANを含む主要なジェイルブレイクテクニックを44ポイント上回っている。
論文参考訳（メタデータ） (2025-05-16T04:12:16Z)
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文参考訳（メタデータ） (2025-02-27T06:49:16Z)
Universal Adversarial Attack on Aligned Multimodal LLMs [1.5146068448101746]
マルチモーダル大規模言語モデル(LLM)に対する普遍的敵攻撃を提案する。私たちは、ターゲットとするフレーズや、その他の安全でないコンテンツでモデルに応答するよう強制する合成画像を作成します。コードとデータセットはApache-2.0ライセンスでリリースします。
論文参考訳（メタデータ） (2025-02-11T22:07:47Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文参考訳（メタデータ） (2024-12-20T07:29:10Z)
LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文参考訳（メタデータ） (2024-12-06T18:02:59Z)
GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
論文参考訳（メタデータ） (2024-11-21T14:00:01Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文参考訳（メタデータ） (2024-04-21T22:18:13Z)
Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。 LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文参考訳（メタデータ） (2023-09-04T08:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。