論文の概要: Sockpuppetting: Jailbreaking LLMs Without Optimization Through Output Prefix Injection
- arxiv url: http://arxiv.org/abs/2601.13359v1
- Date: Mon, 19 Jan 2026 19:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.042197
- Title: Sockpuppetting: Jailbreaking LLMs Without Optimization Through Output Prefix Injection
- Title(参考訳): Sockpuppetting: 出力プレフィックスインジェクションによる最適化なしでLLMをジェイルブレイクする
- Authors: Asen Dotsinski, Panagiotis Eustratiadis,
- Abstract要約: sockpuppetting"は、オープンウェイト言語モデルをジェイルブレイクするためのシンプルな方法である。
攻撃成功率(ASR)はQwen3-8BのGCGよりも80%高い。
- 参考スコア(独自算出の注目度): 2.8329969194317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As open-weight large language models (LLMs) increase in capabilities, safeguarding them against malicious prompts and understanding possible attack vectors becomes ever more important. While automated jailbreaking methods like GCG [Zou et al., 2023] remain effective, they often require substantial computational resources and specific expertise. We introduce "sockpuppetting'', a simple method for jailbreaking open-weight LLMs by inserting an acceptance sequence (e.g., "Sure, here is how to...'') at the start of a model's output and allowing it to complete the response. Requiring only a single line of code and no optimization, sockpuppetting achieves up to 80% higher attack success rate (ASR) than GCG on Qwen3-8B in per-prompt comparisons. We also explore a hybrid approach that optimizes the adversarial suffix within the assistant message block rather than the user prompt, increasing ASR by 64% over GCG on Llama-3.1-8B in a prompt-agnostic setting. The results establish sockpuppetting as an effective low-cost attack accessible to unsophisticated adversaries, highlighting the need for defences against output-prefix injection in open-weight models.
- Abstract(参考訳): オープンウェイトな大規模言語モデル(LLM)の能力が向上するにつれて、悪意のあるプロンプトから彼らを保護し、攻撃ベクトルを理解することがますます重要になる。
GCG(Zou et al , 2023)のような自動ジェイルブレイク手法は依然として有効であるが、かなりの計算資源と特定の専門知識を必要とすることが多い。
我々は、モデル出力の開始時に受け入れシーケンス(例えば、"Sure, here is how to...'')を挿入し、応答を完了させることで、オープンウェイトLLMをジェイルブレイクする簡単な方法である"sockpuppetting'"を紹介します。
たった1行のコードだけで最適化が不要なソックアップペッティングは、Qwen3-8Bの攻撃成功率(ASR)を、プロンプト毎の比較で最大80%向上させる。
また、ユーザプロンプトではなく、アシスタントメッセージブロック内の逆接接尾辞を最適化するハイブリッドアプローチについても検討し、Llama-3.1-8B上のGCGよりもASRを64%増加させる。
その結果、ソックアップペッティングは、未解決の敵に対して有効な低コスト攻撃として確立され、オープンウェイトモデルにおけるアウトプット・プレフィックス・インジェクションに対する防御の必要性が強調された。
関連論文リスト
- Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs [11.094625711201648]
GCGcitepzou2023Universalは、離散トークン最適化アルゴリズムを提案し、単一のサフィックスを最低損失で選択し、ジェイルブレイクアライメントされたLCMを成功させる。
本研究では,サフィックスをトレーニングデータとして活用し,有害なクエリを与えられたサフィックスの分布をキャプチャするAmpleGCGという生成モデルを学習する。
AmpleGCGモデルは、たった4秒で1つの有害なクエリに対して200の逆サフィックスを生成することができる。
論文 参考訳(メタデータ) (2024-04-11T17:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。