論文の概要: The Structural Safety Generalization Problem
- arxiv url: http://arxiv.org/abs/2504.09712v1
- Date: Sun, 13 Apr 2025 20:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 03:07:15.338998
- Title: The Structural Safety Generalization Problem
- Title(参考訳): 構造安全の一般化問題
- Authors: Julius Broomfield, Tom Gibbs, Ethan Kosak-Hine, George Ingebretsen, Tia Nasir, Jason Zhang, Reihaneh Iranmanesh, Sara Pieri, Reihaneh Rabbany, Kellin Pelrine,
- Abstract要約: LLMジェイルブレイクは幅広い安全上の課題である。この問題がまだ解決されていないことを踏まえ、重要な障害メカニズムをターゲットにすることを提案する。
我々は、マルチターン、マルチイメージ、翻訳ベースの攻撃に対する新たな脆弱性を明らかにすることで、このフレームワーク内でレッドチームを行う。
次に、このフレームワークがStructure Rewriting Guardrailを提案することによって、新たな防御を可能にする可能性を実証する。
- 参考スコア(独自算出の注目度): 6.577241163741174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM jailbreaks are a widespread safety challenge. Given this problem has not yet been tractable, we suggest targeting a key failure mechanism: the failure of safety to generalize across semantically equivalent inputs. We further focus the target by requiring desirable tractability properties of attacks to study: explainability, transferability between models, and transferability between goals. We perform red-teaming within this framework by uncovering new vulnerabilities to multi-turn, multi-image, and translation-based attacks. These attacks are semantically equivalent by our design to their single-turn, single-image, or untranslated counterparts, enabling systematic comparisons; we show that the different structures yield different safety outcomes. We then demonstrate the potential for this framework to enable new defenses by proposing a Structure Rewriting Guardrail, which converts an input to a structure more conducive to safety assessment. This guardrail significantly improves refusal of harmful inputs, without over-refusing benign ones. Thus, by framing this intermediate challenge - more tractable than universal defenses but essential for long-term safety - we highlight a critical milestone for AI safety research.
- Abstract(参考訳): LLMジェイルブレイクは幅広い安全上の課題である。
この問題はまだ解決不可能であるため、セマンティックに等価な入力を一般化する安全性の失敗という、重要な障害メカニズムをターゲットにすることを提案する。
本研究の目的は, モデル間の説明可能性, モデル間の伝達可能性, 目標間の移動可能性である。
我々は、マルチターン、マルチイメージ、翻訳ベースの攻撃に対する新たな脆弱性を明らかにすることで、このフレームワーク内でレッドチームを行う。
これらの攻撃は、我々の設計では、単一のターン、シングルイメージ、あるいは翻訳されていないものと意味論的に等価であり、体系的な比較が可能であり、異なる構造が異なる安全結果をもたらすことを示す。
次に,この枠組みが新たな防御を可能にする可能性を示すために,より安全性の高い構造に入力を変換するStructure Rewriting Guardrailを提案する。
このガードレールは、有害な入力の拒絶を大幅に改善し、良性な入力を過度に拒絶する。
したがって、この中間的課題 — 普遍的な防御よりもはるかに難しいが、長期的な安全には不可欠 — をフレーミングすることで、AI安全研究における重要なマイルストーンを浮き彫りにします。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Safety Alignment Depth in Large Language Models: A Markov Chain Perspective [23.347349690954452]
大規模言語モデル(LLM)は、ハイステークなシナリオでますます採用されているが、その安全性メカニズムは脆弱であることが多い。
本論文は,安全アライメントのための理想的な深度を同定する方法について,最初の理論的結果を提供する。
より広いアンサンブルがより浅いアライメントを補うことができることを示すために,アライメント深さとアンサンブル幅の基本的な相互作用を明らかにする。
論文 参考訳(メタデータ) (2025-02-02T04:43:35Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。