論文の概要: HAMSA: Hijacking Aligned Compact Models via Stealthy Automation
- arxiv url: http://arxiv.org/abs/2508.16484v1
- Date: Fri, 22 Aug 2025 15:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.439443
- Title: HAMSA: Hijacking Aligned Compact Models via Stealthy Automation
- Title(参考訳): HAMSA: ステルス自動化による適応型コンパクトモデルハイジャック
- Authors: Alexey Krylov, Iskander Vagizov, Dmitrii Korzh, Maryam Douiba, Azidine Guezzaz, Vladimir Kokh, Sergey D. Erokhin, Elena V. Tutubalina, Oleg Y. Rogov,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲なアライメントの努力にもかかわらず有害なアウトプットを誘発できるジェイルブレイク攻撃の影響を受けやすい。
セマンティックに意味があり、ステルス的なジェイルブレイクプロンプトを進化させ、協調したコンパクトなLDMのための自動赤チームフレームワークを提案する。
本手法は,LLM における In-The-Wild Jailbreak Prompts と LLM における In-The-Wild Jailbreak Prompts から派生したアラビア語で,ネイティブアラビア語の言語学者によって注釈付けされた新たなキュレーションを行った。
- 参考スコア(独自算出の注目度): 3.7898376145698744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs), especially their compact efficiency-oriented variants, remain susceptible to jailbreak attacks that can elicit harmful outputs despite extensive alignment efforts. Existing adversarial prompt generation techniques often rely on manual engineering or rudimentary obfuscation, producing low-quality or incoherent text that is easily flagged by perplexity-based filters. We present an automated red-teaming framework that evolves semantically meaningful and stealthy jailbreak prompts for aligned compact LLMs. The approach employs a multi-stage evolutionary search, where candidate prompts are iteratively refined using a population-based strategy augmented with temperature-controlled variability to balance exploration and coherence preservation. This enables the systematic discovery of prompts capable of bypassing alignment safeguards while maintaining natural language fluency. We evaluate our method on benchmarks in English (In-The-Wild Jailbreak Prompts on LLMs), and a newly curated Arabic one derived from In-The-Wild Jailbreak Prompts on LLMs and annotated by native Arabic linguists, enabling multilingual assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)、特にそのコンパクトな効率指向の変種は、広範囲なアライメントの努力にもかかわらず有害な出力を誘発できるジェイルブレイク攻撃の影響を受けやすいままである。
既存の敵のプロンプト生成技術は、しばしば手動工学や初歩的難読化に依存し、低品質または不整合なテキストを生成し、難易度に基づくフィルタによって容易にフラグ付けされる。
セマンティックに意味があり、ステルス的なジェイルブレイクプロンプトを進化させ、協調したコンパクトなLDMのための自動赤チームフレームワークを提案する。
このアプローチは多段階の進化的探索を採用し、探索とコヒーレンス保存のバランスを保ちながら、温度制御のばらつきを付加した人口ベースの戦略を用いて、候補のプロンプトを反復的に洗練する。
これにより、自然言語の流布を維持しながらアライメントセーフガードをバイパスできるプロンプトの体系的な発見が可能になる。
本手法は英語のベンチマーク(LLMのIn-The-Wild Jailbreak Prompts)と、LLMのIn-The-Wild Jailbreak Promptsから派生した、ネイティブアラビア語の言語学者によって注釈付けされた、多言語による評価が可能である。
関連論文リスト
- Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation [4.893110077312707]
本研究では,大規模モデルの解釈可能性を活用するブラックボックス攻撃手法を提案する。
Sparse Feature Perturbation Framework (SFPF) を導入する。
実験結果から,SFPFが生成した対向テキストは,最先端の防御機構をバイパスできることが示された。
論文 参考訳(メタデータ) (2025-08-14T07:12:44Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,Jailbreakプロンプトを効率的に生成できる新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介する。
我々は,GASPが自然な敵のプロンプトを生成でき,ベースラインよりもジェイルブレイクの成功を著しく改善し,トレーニング時間を短縮し,推論速度を加速できることを示す。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。