論文の概要: Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2506.24056v1
- Date: Mon, 30 Jun 2025 17:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.165479
- Title: Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models
- Title(参考訳): Logit-Gap Steering: 大規模言語モデルに対する効率的な短距離ジェイルブレーク
- Authors: Tung-Ling Li, Hongliang Liu,
- Abstract要約: 高速なジェイルブレイクフレームワークであるlogit-gap steeringを導入し、RLHF対応言語モデルの拒絶確認ギャップを語彙の単一パスとして表現する。
フォワード計算可能なスコアは、ギャップ低減とKLペナルティと報酬シフトのための軽量プロキシをブレンドする。
同じ接尾辞は目に見えないプロンプトとスケールを0.5Bから70Bのチェックポイントに一般化し、ベースラインレベルから80-100%まで1発の攻撃成功を上げた。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce logit-gap steering, a fast jailbreak framework that casts the refusal-affirmation gap of RLHF-aligned language models as a single pass over the vocabulary. A forward-computable score blends gap reduction with lightweight proxies for KL penalty and reward shift, allowing a "sort-sum-stop" sweep to complete in under a second and return a short suffix--two orders of magnitude fewer model calls than beam or gradient attacks. The same suffix generalises to unseen prompts and scales from 0.5 B to 70 B checkpoints, lifting one-shot attack success from baseline levels to 80-100% while preserving topical coherence. Beyond efficiency, these suffixes expose sentence-boundary reward cliffs and other alignment artefacts, offering a lightweight probe into how safety tuning reshapes internal representations.
- Abstract(参考訳): 高速なジェイルブレイクフレームワークであるlogit-gap steeringを導入し、RLHF対応言語モデルの拒絶確認ギャップを語彙の単一パスとして表現する。
フォワード計算可能なスコアは、ギャップ削減をKLペナルティと報酬シフトのための軽量プロキシとブレンドし、"sort-sum-stop"スイープを1秒未満で完了させ、短いサフィックスを返す。
同じ接尾辞は未確認のプロンプトとスケールを0.5Bから70Bのチェックポイントに一般化し、一発攻撃の成功をベースラインレベルから80-100%に引き上げ、トピックコヒーレンスを保存する。
効率性以外にも、これらの接尾辞は文境界の報酬の崖やその他のアライメント・アーティファクトを露出させ、安全チューニングが内部表現をどのように再認識するかを軽量に調査する。
関連論文リスト
- Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts [10.536276489213497]
生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。
我々はAmpleGCG-Plusを導入した。
我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-10-29T15:40:07Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs [11.094625711201648]
GCGcitepzou2023Universalは、離散トークン最適化アルゴリズムを提案し、単一のサフィックスを最低損失で選択し、ジェイルブレイクアライメントされたLCMを成功させる。
本研究では,サフィックスをトレーニングデータとして活用し,有害なクエリを与えられたサフィックスの分布をキャプチャするAmpleGCGという生成モデルを学習する。
AmpleGCGモデルは、たった4秒で1つの有害なクエリに対して200の逆サフィックスを生成することができる。
論文 参考訳(メタデータ) (2024-04-11T17:05:50Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。