論文の概要: Adversarial Reframing: A Framework for Targeted Generation in Language Models
- arxiv url: http://arxiv.org/abs/2605.21674v1
- Date: Wed, 20 May 2026 19:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.974898
- Title: Adversarial Reframing: A Framework for Targeted Generation in Language Models
- Title(参考訳): Adversarial Reframing: 言語モデルにおけるターゲット生成のためのフレームワーク
- Authors: Shahnewaz Karim Sakib, Swati Kar, Anindya Bijoy Das,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな実世界の設定で広くデプロイされているが、ジェイルブレイクに対して脆弱であり、プロンプトベースの攻撃安全フィルタである。
本稿では,基礎モデルの安全性を積極的に強化するためのツールとしてTHREAT (edversa bypass generation via Reframing) を提案する。
- 参考スコア(独自算出の注目度): 4.231181719953953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely deployed in diverse real-world settings, yet remain vulnerable to jailbreaking, where prompt-based attacks bypass safety filters. We present THREAT (Targeted Harmful generation via Reframing and Exploitation of Adversarial Tactics), a reasoning-driven framework that coordinates multiple LLMs in an iterative search loop to find textual jailbreak prompts. We formulate prompt discovery as a nonconvex optimization problem and provide an efficient solution that lowers runtime and improves attack effectiveness. Across diverse datasets and model architectures, THREAT delivers higher attack success rates with lower computational cost than prior methods. The crafted prompts were flagged as harmful in fewer than 1% of cases, compared with about 50% refusals for the corresponding unmodified prompts. These findings reveal previously undetected vulnerabilities in aligned LLMs and position THREAT as a practical tool for proactively strengthening the safety of foundation models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな現実世界設定で広くデプロイされているが、ジェイルブレイクに弱いままであり、安全フィルタをバイパスするプロンプトベースの攻撃である。
本稿では,複数のLLMを反復探索ループでコーディネートし,テキスト・ジェイルブレイクのプロンプトを検索するTHREAT(Targeted Harmful Generation via Reframing and Exploitation of Adversarial Tactics)を提案する。
非凸最適化問題として素早い発見を定式化し、ランタイムを低くし、攻撃効率を向上させる効率的なソリューションを提供する。
多様なデータセットとモデルアーキテクチャにわたって、THREATは以前の方法よりも計算コストの低い攻撃成功率を提供する。
加工されたプロンプトは1%未満のケースで有害であるとマークされ、対応する未修正プロンプトの約50%が拒絶された。
これらの結果から, 基礎モデルの安全性を積極的に強化するための実用ツールとして, LLM と THREAT の位置に未検出の脆弱性があることが判明した。
関連論文リスト
- Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models [15.425738252512362]
大規模な言語モデルは、Jailbreak攻撃に対して脆弱なままですが、ジェイルブレイクの成功が、メソッド、モデルファミリー、害タイプを越えて攻撃者の努力によってどのようにスケールするかに関して、体系的な理解はいまだにありません。
我々は、各攻撃を計算バウンド最適化手順として扱い、共有FLOPs軸の進捗を測定することにより、ジェイルブレイクのスケーリング法フレームワークを開始する。
組織的評価は、最適化に基づく攻撃、自己抑制促進、サンプリングに基づく選択、遺伝的最適化を含む4つの代表的なジェイルブレイクパラダイムにまたがる。
論文 参考訳(メタデータ) (2026-03-11T17:38:08Z) - Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers [21.207996237794855]
LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
システムは、入力されたクエリよりも、操作されたフィードバックに対してかなり脆弱である。
本報告では, フェール・リワードの$Delta$ASR を, 実用性を低下させることなく 0.23 から 0.07 に削減する軽量ハイライトディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:28:54Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - VERA: Variational Inference Framework for Jailbreaking Large Language Models [29.57412296290215]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文 参考訳(メタデータ) (2025-06-27T22:22:00Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。