論文の概要: Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking?
- arxiv url: http://arxiv.org/abs/2505.17650v1
- Date: Fri, 23 May 2025 09:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.949784
- Title: Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking?
- Title(参考訳): チェーン・オブ・サート・推論は脱獄から本当に有害性を減らすのか?
- Authors: Chengda Lu, Xiaoyu Fan, Yu Huang, Rongwu Xu, Jijie Li, Wei Xu,
- Abstract要約: ジェイルブレイク攻撃は、Chain-of-Thought(CoT)推論によって強化された最近の推論モデルに対して、主に失敗することが観察されている。
本稿では,CoT推論は脱獄による有害性を本当に減少させるのか,という疑問に答えようとしている。
- 参考スコア(独自算出の注目度): 10.631798238641275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks have been observed to largely fail against recent reasoning models enhanced by Chain-of-Thought (CoT) reasoning. However, the underlying mechanism remains underexplored, and relying solely on reasoning capacity may raise security concerns. In this paper, we try to answer the question: Does CoT reasoning really reduce harmfulness from jailbreaking? Through rigorous theoretical analysis, we demonstrate that CoT reasoning has dual effects on jailbreaking harmfulness. Based on the theoretical insights, we propose a novel jailbreak method, FicDetail, whose practical performance validates our theoretical findings.
- Abstract(参考訳): ジェイルブレイク攻撃は、Chain-of-Thought(CoT)推論によって強化された最近の推論モデルに対して、主に失敗することが観察されている。
しかし、基礎となるメカニズムは未解明のままであり、推論能力のみに依存しているため、セキュリティ上の懸念が生じる可能性がある。
本稿では,CoT推論は脱獄による有害性を本当に減少させるのか,という疑問に答えようとしている。
厳密な理論的分析により,CoT推論が脱獄の有害性に2つの影響を及ぼすことを示した。
理論的知見に基づいて,我々の理論的知見を実証する新しいジェイルブレイク手法FicDetailを提案する。
関連論文リスト
- The Jailbreak Tax: How Useful are Your Jailbreak Outputs? [21.453837660747844]
既存のjailbreakによって生成されたモデル出力が実際に有用かどうかを問う。
8つの代表的なジェイルブレイクに対する評価は、ジェイルブレイク応答におけるモデルユーティリティの一貫した低下を示す。
全体として、我々の研究は、AI安全性の新たな重要な指標としてジェイルブレイク税を提案している。
論文 参考訳(メタデータ) (2025-04-14T20:30:41Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - [WIP] Jailbreak Paradox: The Achilles' Heel of LLMs [11.635736040804355]
基礎モデルの脱獄に関する2つのパラドックスを紹介する。
第一に、完璧なジェイルブレイク分類器を構築することは不可能であり、第二に、より弱いモデルは、より強い(パーレト支配的な意味で)モデルがジェイルブレイクされているかどうかを一貫して検出できない。
論文 参考訳(メタデータ) (2024-06-18T15:14:35Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。
有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。