論文の概要: SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration
- arxiv url: http://arxiv.org/abs/2603.15397v1
- Date: Mon, 16 Mar 2026 15:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.526205
- Title: SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration
- Title(参考訳): SFCoT:アクティブ・セーフティ・アセスメントと校正
- Authors: Yu Pan, Wenlong Yu, Tiejun Wu, Xiaohu Ye, Qiannan Si, Guangquan Xu, Bin Wu,
- Abstract要約: 本稿では,安全性の低い推論ステップを積極的に評価・校正するSaFer Chain-of-Thought(SFCoT)フレームワークを提案する。
実験の結果、SFCoTは攻撃成功率を58.97%から12.31%に引き下げた。
- 参考スコア(独自算出の注目度): 9.8659606914942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks. However, they remain highly susceptible to jailbreak attacks that undermine their safety alignment. Existing defense mechanisms typically rely on post hoc filtering applied only to the final output, leaving intermediate reasoning steps unmonitored and vulnerable to adversarial manipulation. To address this gap, this paper proposes a SaFer Chain-of-Thought (SFCoT) framework, which proactively evaluates and calibrates potentially unsafe reasoning steps in real time. SFCoT incorporates a three-tier safety scoring system alongside a multi-perspective consistency verification mechanism, designed to detect potential risks throughout the reasoning process. A dynamic intervention module subsequently performs targeted calibration to redirect reasoning trajectories toward safe outcomes. Experimental results demonstrate that SFCoT reduces the attack success rate from $58.97\%$ to $12.31\%$, demonstrating it as an effective and efficient LLM safety enhancement method without a significant decline in general performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
しかし、彼らは安全を損なうジェイルブレイク攻撃の影響を受けやすいままである。
既存の防御機構は、通常、最終出力にのみ適用されるポストホックフィルタリングに依存し、中間的推論ステップは監視されず、敵の操作に弱いままである。
このギャップに対処するため,Safer Chain-of-Thought (SFCoT) フレームワークを提案する。
SFCoTは、推論プロセスを通して潜在的なリスクを検出するように設計された、多視点整合性検証機構とともに、3層安全スコアシステムを備えている。
その後、動的介入モジュールがターゲットキャリブレーションを行い、推論軌道を安全な結果にリダイレクトする。
実験の結果,SFCoT は攻撃成功率を 58.97 % から 12.31 % に減らし,汎用性能を著しく低下させることなく効果的かつ効率的な LLM 安全性向上手法として実証した。
関連論文リスト
- SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。
小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-11-09T19:46:54Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。