論文の概要: The Structural Safety Generalization Problem
- arxiv url: http://arxiv.org/abs/2504.09712v1
- Date: Sun, 13 Apr 2025 20:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:39.038205
- Title: The Structural Safety Generalization Problem
- Title(参考訳): 構造安全の一般化問題
- Authors: Julius Broomfield, Tom Gibbs, Ethan Kosak-Hine, George Ingebretsen, Tia Nasir, Jason Zhang, Reihaneh Iranmanesh, Sara Pieri, Reihaneh Rabbany, Kellin Pelrine,
- Abstract要約: LLMジェイルブレイクは幅広い安全上の課題である。この問題がまだ解決されていないことを踏まえ、重要な障害メカニズムをターゲットにすることを提案する。
我々は、マルチターン、マルチイメージ、翻訳ベースの攻撃に対する新たな脆弱性を明らかにすることで、このフレームワーク内でレッドチームを行う。
次に、このフレームワークがStructure Rewriting Guardrailを提案することによって、新たな防御を可能にする可能性を実証する。
- 参考スコア(独自算出の注目度): 6.577241163741174
- License:
- Abstract: LLM jailbreaks are a widespread safety challenge. Given this problem has not yet been tractable, we suggest targeting a key failure mechanism: the failure of safety to generalize across semantically equivalent inputs. We further focus the target by requiring desirable tractability properties of attacks to study: explainability, transferability between models, and transferability between goals. We perform red-teaming within this framework by uncovering new vulnerabilities to multi-turn, multi-image, and translation-based attacks. These attacks are semantically equivalent by our design to their single-turn, single-image, or untranslated counterparts, enabling systematic comparisons; we show that the different structures yield different safety outcomes. We then demonstrate the potential for this framework to enable new defenses by proposing a Structure Rewriting Guardrail, which converts an input to a structure more conducive to safety assessment. This guardrail significantly improves refusal of harmful inputs, without over-refusing benign ones. Thus, by framing this intermediate challenge - more tractable than universal defenses but essential for long-term safety - we highlight a critical milestone for AI safety research.
- Abstract(参考訳): LLMジェイルブレイクは幅広い安全上の課題である。
この問題はまだ解決不可能であるため、セマンティックに等価な入力を一般化する安全性の失敗という、重要な障害メカニズムをターゲットにすることを提案する。
本研究の目的は, モデル間の説明可能性, モデル間の伝達可能性, 目標間の移動可能性である。
我々は、マルチターン、マルチイメージ、翻訳ベースの攻撃に対する新たな脆弱性を明らかにすることで、このフレームワーク内でレッドチームを行う。
これらの攻撃は、我々の設計では、単一のターン、シングルイメージ、あるいは翻訳されていないものと意味論的に等価であり、体系的な比較が可能であり、異なる構造が異なる安全結果をもたらすことを示す。
次に,この枠組みが新たな防御を可能にする可能性を示すために,より安全性の高い構造に入力を変換するStructure Rewriting Guardrailを提案する。
このガードレールは、有害な入力の拒絶を大幅に改善し、良性な入力を過度に拒絶する。
したがって、この中間的課題 — 普遍的な防御よりもはるかに難しいが、長期的な安全には不可欠 — をフレーミングすることで、AI安全研究における重要なマイルストーンを浮き彫りにします。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Safety Alignment Depth in Large Language Models: A Markov Chain Perspective [23.347349690954452]
大規模言語モデル(LLM)は、ハイステークなシナリオでますます採用されているが、その安全性メカニズムは脆弱であることが多い。
本論文は,安全アライメントのための理想的な深度を同定する方法について,最初の理論的結果を提供する。
より広いアンサンブルがより浅いアライメントを補うことができることを示すために,アライメント深さとアンサンブル幅の基本的な相互作用を明らかにする。
論文 参考訳(メタデータ) (2025-02-02T04:43:35Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Safety Alignment Should Be Made More Than Just a Few Tokens Deep [48.823599143711235]
現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
最初の数個のトークン以上の安全性アライメントの強化は、一般的なエクスプロイトに対するロバスト性を大幅に向上させる可能性があることを、私たちは示しています。
論文 参考訳(メタデータ) (2024-06-10T00:35:23Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。