論文の概要: SafeRedirect: Defeating Internal Safety Collapse via Task-Completion Redirection in Frontier LLMs
- arxiv url: http://arxiv.org/abs/2604.20930v1
- Date: Wed, 22 Apr 2026 09:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.101406
- Title: SafeRedirect: Defeating Internal Safety Collapse via Task-Completion Redirection in Frontier LLMs
- Title(参考訳): Safe Redirect:Frontier LLMにおけるタスク完了リダイレクトによる内部安全崩壊の定義
- Authors: Chao Pan, Yu Wu, Xin Yao,
- Abstract要約: 内部安全崩壊(英: internal Safety Collapse、ISC)は、フロンティアのLSMが正規の専門業務を行う障害モードである。
我々は,モデルのタスク補完ドライブをリダイレクトすることでICCを倒すシステムレベルのオーバライドであるSafeRedirectを提案する。
- 参考スコア(独自算出の注目度): 11.74751458573433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal Safety Collapse (ISC) is a failure mode in which frontier LLMs, when executing legitimate professional tasks whose correct completion structurally requires harmful content, spontaneously generate that content with safety failure rates exceeding 95%. Existing input-level defenses achieve a 100% failure rate against ISC, and standard system prompt defenses provide only partial mitigation. We propose SafeRedirect, a system-level override that defeats ISC by redirecting the model's task-completion drive rather than suppressing it. SafeRedirect grants explicit permission to fail the task, prescribes a deterministic hard-stop output, and instructs the model to preserve harmful placeholders unresolved. Evaluated on seven frontier LLMs across three AI/ML-related ISC task types in the single-turn setting, SafeRedirect reduces average unsafe generation rates from 71.2% to 8.0%, compared to 55.0% for the strongest viable baseline. Multi-model ablation reveals that failure permission and condition specificity are universally critical, while the importance of other components varies across models. Cross-attack evaluation confirms state-of-the-art defense against ISC with generalization performance at least on par with the baseline on other attack families. Code is available at https://github.com/fzjcdt/SafeRedirect.
- Abstract(参考訳): 内部安全崩壊(英: internal Safety Collapse、ISC)とは、フロンティアのLSMが、適切な完了が構造上有害な内容を必要とする正統なプロフェッショナルタスクを実行する際に、95%を超える安全性障害率のコンテンツを自発的に生成する障害モードである。
既存の入力レベルディフェンスはICCに対する100%の障害率を達成する。
ISCを倒すシステムレベルのオーバライドであるSafeRedirectを提案し、それを抑えるのではなく、モデルのタスク補完ドライブをリダイレクトする。
SafeRedirectは、タスクの失敗を明示的に許可し、決定論的ハードストップ出力を処方し、有害なプレースホルダーを未解決で保存するようにモデルに指示する。
SafeRedirectは、単一のターン設定でAI/ML関連の3つのISCタスクタイプにまたがる7つのフロンティアLSMで評価され、平均的な安全でない生成率を71.2%から8.0%に減らし、最も有効なベースラインでは55.0%に減らした。
マルチモデルアブレーションでは、障害のパーミッションと条件の特異性は普遍的に重要であるが、他のコンポーネントの重要性はモデルによって異なる。
クロスアタック評価は、ICCに対する最先端の防御を、少なくとも他の攻撃ファミリーのベースラインと同等の一般化性能で確認する。
コードはhttps://github.com/fzjcdt/SafeRedirect.comから入手できる。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - SafeClaw-R: Towards Safe and Secure Multi-Agent Personal Assistants [10.897758061443989]
SafeClaw-Rは、実行グラフ上のシステムレベルの不変量として安全を強制するフレームワークである。
生産性プラットフォーム、サードパーティのスキルエコシステム、コード実行環境の3つの領域でSafeClaw-Rを評価します。
論文 参考訳(メタデータ) (2026-03-28T05:03:54Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - GSAE: Graph-Regularized Sparse Autoencoders for Robust LLM Safety Steering [5.124731939041066]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃を通じて有害なコンテンツを生成するように操作できるため、重要な安全上の課題に直面している。
グラフ正規化スパースオートエンコーダ (GSAE) を導入し, ニューロン共活性化グラフ上にラプラシアンスムーズネスペナルティを持つSAEを拡張した。
GSAEは, 効果的な安全ステアリング, 特徴を重み付けした安全関連方向に組み立て, 2段階のゲーティング機構で制御できることを実証した。
論文 参考訳(メタデータ) (2025-12-07T04:46:30Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。