論文の概要: Safety Context Injection: Inference-Time Safety Alignment via Static Filtering and Agentic Analysis
- arxiv url: http://arxiv.org/abs/2605.11664v1
- Date: Tue, 12 May 2026 07:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.662122
- Title: Safety Context Injection: Inference-Time Safety Alignment via Static Filtering and Agentic Analysis
- Title(参考訳): 安全コンテキスト注入:静的フィルタリングとエージェント分析による推論時間安全アライメント
- Authors: Zhenhao Xu, Wenhan Chang, Yichuan Chen, Yuxin Fang, Junhao Liu, Tianqing Zhu,
- Abstract要約: 大きな推論モデル(LRM)は複雑なタスクのパフォーマンスを改善するが、デプロイ時に安全性制御を難しくする。
ブラックボックスの設定では、ディフェンダーはモデルの重みを変更できず、代わりに推論時に介入しなければならない。
有害な意図は教育的あるいはロールプレイ的なフレーミングによって隠蔽され、深い安全分析は非自明なレイテンシを導入し、長い敵のコンテキストはより単純なフィルターが依存する局所的な手がかりを希薄化する。
安全コンテキスト注入(SCI)は、タスク生成から安全評価を分離し、保護された安全コンテキストとして構造化された外部リスクレポートをプリペイドする推論時フレームワークである。
- 参考スコア(独自算出の注目度): 18.33590637095743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) improve performance on complex tasks, but they also make safety control harder at deployment time. In black-box settings, defenders cannot modify model weights and must instead intervene at inference time. This setting creates three practical challenges: harmful intent may be hidden by educational or role-play framing, deep safety analysis can introduce non-trivial latency, and long adversarial contexts can dilute the local cues that simpler filters rely on. These challenges can expose an apparent thinking--output gap, where the model appears cautious during reasoning but still produces an unsafe final answer. To address this problem, we propose Safety Context Injection (SCI), an inference-time framework that separates safety assessment from task generation and prepends a structured external risk report as injected safety context for the protected model. The framework is instantiated in two complementary variants: Static Model Filtering (SMF), a lightweight one-pass guard for fast deployment, and Dynamic Agents Filtering (DAF), an agentic-loop-based analyzer that iteratively gathers and synthesizes evidence for ambiguous or long-context attacks. Across AdvBench and GPTFuzz, spanning base and reasoning models under five jailbreak families, both variants reduce attack success rate and toxicity in the evaluated settings. SMF offers an efficient low-latency option, while DAF is more effective when harmful intent is semantically disguised or dispersed across long contexts.
- Abstract(参考訳): 大きな推論モデル(LRM)は複雑なタスクのパフォーマンスを改善するが、デプロイ時に安全性制御を難しくする。
ブラックボックスの設定では、ディフェンダーはモデルの重みを変更できず、代わりに推論時に介入しなければならない。
有害な意図は教育的あるいはロールプレイ的なフレーミングによって隠蔽され、深い安全分析は非自明なレイテンシを導入し、長い敵のコンテキストはより単純なフィルターが依存する局所的な手がかりを希薄化する。
これらの課題は明らかな思考とアウトプットのギャップを露呈する可能性がある。
この問題を解決するために,タスク生成から安全評価を分離し,保護されたモデルに対する安全コンテキストとして構造化された外部リスクレポートを優先する推論時フレームワークであるセーフティ・コンテキスト・インジェクション(SCI)を提案する。
フレームワークは、高速デプロイメントのための軽量なワンパスガードである静的モデルフィルタリング(SMF)と、エージェントループベースのアナライザであるDynamic Agents Filtering(DAF)の2つの補完的なバリエーションでインスタンス化されている。
AdvBenchとGPTFuzzは5つのジェイルブレイクファミリーのベースモデルと推論モデルにまたがっており、どちらも評価された設定における攻撃成功率と毒性を低下させる。
SMFは効率的な低レイテンシオプションを提供するが、有害な意図が意味論的に偽装されたり、長いコンテキストに分散された場合、DAFはより効果的である。
関連論文リスト
- SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。
小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-11-09T19:46:54Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。