論文の概要: NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03985v1
- Date: Thu, 04 Sep 2025 08:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.096103
- Title: NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models
- Title(参考訳): NeuroBreak:大規模言語モデルにおける内部ジェイルブレイク機構の解明
- Authors: Chuhan Zhang, Ye Zhang, Bowen Shi, Yuyou Gan, Tianyu Du, Shouling Ji, Dazhan Deng, Yingcai Wu,
- Abstract要約: NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
- 参考スコア(独自算出の注目度): 68.09675063543402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deployment and application, large language models (LLMs) typically undergo safety alignment to prevent illegal and unethical outputs. However, the continuous advancement of jailbreak attack techniques, designed to bypass safety mechanisms with adversarial prompts, has placed increasing pressure on the security defenses of LLMs. Strengthening resistance to jailbreak attacks requires an in-depth understanding of the security mechanisms and vulnerabilities of LLMs. However, the vast number of parameters and complex structure of LLMs make analyzing security weaknesses from an internal perspective a challenging task. This paper presents NeuroBreak, a top-down jailbreak analysis system designed to analyze neuron-level safety mechanisms and mitigate vulnerabilities. We carefully design system requirements through collaboration with three experts in the field of AI security. The system provides a comprehensive analysis of various jailbreak attack methods. By incorporating layer-wise representation probing analysis, NeuroBreak offers a novel perspective on the model's decision-making process throughout its generation steps. Furthermore, the system supports the analysis of critical neurons from both semantic and functional perspectives, facilitating a deeper exploration of security mechanisms. We conduct quantitative evaluations and case studies to verify the effectiveness of our system, offering mechanistic insights for developing next-generation defense strategies against evolving jailbreak attacks.
- Abstract(参考訳): デプロイメントとアプリケーションでは、大言語モデル(LLM)は、通常、違法で非倫理的な出力を防ぐために安全アライメントを行う。
しかし、敵のプロンプトで安全機構を回避しようとするジェイルブレイク攻撃技術の継続的な進歩は、LLMのセキュリティ防衛に圧力を増している。
ジェイルブレイク攻撃に対する耐性を強化するには、LLMのセキュリティメカニズムと脆弱性を深く理解する必要がある。
しかし、LLMの膨大な数のパラメータと複雑な構造は、内部的な観点からセキュリティの弱点を分析することが難しい課題である。
本稿では,ニューロンレベルの安全性機構の解析と脆弱性の軽減を目的としたトップダウンジェイルブレイク解析システムであるNeuroBreakを提案する。
AIセキュリティ分野の専門家3人との共同作業を通じて,システム要件を慎重に設計する。
このシステムは、様々なジェイルブレイク攻撃方法の包括的分析を提供する。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakは生成ステップを通じて、モデルの意思決定プロセスに関する新たな視点を提供する。
さらに, 本システムは, 意味的, 機能的両面から重要なニューロンの解析を支援し, セキュリティ機構のより深い探索を容易にする。
本システムの有効性を検証するために定量的評価とケーススタディを行い,次世代の防犯戦略開発のための機械的洞察を提供する。
関連論文リスト
- Unraveling LLM Jailbreaks Through Safety Knowledge Neurons [26.157477756143166]
本稿では,安全関連知識ニューロンの役割に焦点をあてた新しいニューロンレベルの解釈可能性手法を提案する。
安全性関連ニューロンの活性化の調節は,平均的ASRを97%以上で効果的に制御できることが示唆された。
我々は,モデルロバスト性を改善するために,安全クリティカルニューロンを強化する微調整戦略であるSafeTuningを提案する。
論文 参考訳(メタデータ) (2025-09-01T17:17:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models [13.153568016463565]
JailbreakLensは視覚分析システムで、ユーザはターゲットモデルに対してjailbreakのパフォーマンスを探索することができる。
モデルセキュリティの評価とモデルの弱点の同定を支援するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-12T19:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。