論文の概要: HauntAttack: When Attack Follows Reasoning as a Shadow
- arxiv url: http://arxiv.org/abs/2506.07031v1
- Date: Sun, 08 Jun 2025 07:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.638125
- Title: HauntAttack: When Attack Follows Reasoning as a Shadow
- Title(参考訳): HauntAttack: 攻撃がシャドウとして反響する時
- Authors: Jingyuan Ma, Rui Li, Zheng Li, Junfeng Liu, Lei Sha, Zhifang Sui,
- Abstract要約: 本稿では,新規かつ汎用的なブラックボックス攻撃フレームワークHauntAttackを紹介する。
我々は、理性的な質問をキャリアとして扱い、元の条件の1つを有害な指示で置き換える。
このプロセスは、モデルが段階的に安全でない出力を生成するための推論経路を生成する。
- 参考スコア(独自算出の注目度): 25.911299946799044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging Large Reasoning Models (LRMs) consistently excel in mathematical and reasoning tasks, showcasing exceptional capabilities. However, the enhancement of reasoning abilities and the exposure of their internal reasoning processes introduce new safety vulnerabilities. One intriguing concern is: when reasoning is strongly entangled with harmfulness, what safety-reasoning trade-off do LRMs exhibit? To address this issue, we introduce HauntAttack, a novel and general-purpose black-box attack framework that systematically embeds harmful instructions into reasoning questions. Specifically, we treat reasoning questions as carriers and substitute one of their original conditions with a harmful instruction. This process creates a reasoning pathway in which the model is guided step by step toward generating unsafe outputs. Based on HauntAttack, we conduct comprehensive experiments on multiple LRMs. Our results reveal that even the most advanced LRMs exhibit significant safety vulnerabilities. Additionally, we perform a detailed analysis of different models, various types of harmful instructions, and model output patterns, providing valuable insights into the security of LRMs.
- Abstract(参考訳): Emerging Large Reasoning Models (LRMs) は数学や推論のタスクに一貫して優れており、例外的な能力を示している。
しかし、推論能力の向上と内部推論プロセスの露出は、新たな安全性の脆弱性をもたらす。
興味深い懸念の1つは、推論が有害性に強く絡み合っている場合、LRMはどんな安全なトレードオフを示すのかである。
この問題に対処するために,有害な命令を体系的に推論問題に埋め込む,新規で汎用的なブラックボックス攻撃フレームワークであるHauntAttackを紹介した。
具体的には、推論質問をキャリアとして扱い、元の条件の1つを有害な指示で置き換える。
このプロセスは、モデルが段階的に安全でない出力を生成するための推論経路を生成する。
HauntAttack をベースとして,複数の LRM に関する総合的な実験を行った。
その結果,最も先進的なLEMでも重大な安全性上の脆弱性があることが判明した。
さらに、異なるモデル、様々な種類の有害な命令、およびモデル出力パターンの詳細な分析を行い、LEMの安全性に関する貴重な洞察を提供する。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文 参考訳(メタデータ) (2025-05-21T11:45:29Z) - SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment [7.657439103188224]
SAFEPATHは, LRMを微調整して, その推論の開始時に, 短時間で8個の安全プライマーを出力する軽量アライメント手法である。
実験の結果,SAFEPATHは推論性能を維持しながら有害な出力を効果的に減少させることが示された。
論文 参考訳(メタデータ) (2025-05-20T17:54:54Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。