論文の概要: Strata-Sword: A Hierarchical Safety Evaluation towards LLMs based on Reasoning Complexity of Jailbreak Instructions
- arxiv url: http://arxiv.org/abs/2509.01444v1
- Date: Mon, 01 Sep 2025 12:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.704617
- Title: Strata-Sword: A Hierarchical Safety Evaluation towards LLMs based on Reasoning Complexity of Jailbreak Instructions
- Title(参考訳): Strata-Sword: ジェイルブレイク命令の推論複雑度に基づくLCMの階層的安全性評価
- Authors: Shiji Zhao, Ranjie Duan, Jiexi Liu, Xiaojun Jia, Fengxiang Wang, Cheng Wei, Ruoxi Cheng, Yong Xie, Chang Liu, Qing Guo, Jialing Tao, Hui Xue, Xingxing Wei,
- Abstract要約: 大規模言語モデル(LLM)と大規模推論モデル(LRM)は、ジェイルブレイク攻撃の際の潜在的な安全リスクに直面している。
本稿では,まず「推論複雑度」を評価可能な安全次元として定量化し,推論複雑度に応じて15のジェイルブレイク攻撃手法を3つのレベルに分類する。
まず,漢字分解攻撃,ランタン・リドル・アタック,アクロスティック・ポエム・アタックなど,独特な言語特性をフル活用するために,いくつかの中国のジェイルブレイク攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 46.429936395155515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have gained widespread recognition for their superior comprehension and have been deployed across numerous domains. Building on Chain-of-Thought (CoT) ideology, Large Reasoning models (LRMs) further exhibit strong reasoning skills, enabling them to infer user intent more accurately and respond appropriately. However, both LLMs and LRMs face the potential safety risks under jailbreak attacks, which raise concerns about their safety capabilities. Current safety evaluation methods often focus on the content dimensions, or simply aggregate different attack methods, lacking consideration of the complexity. In fact, instructions of different complexity can reflect the different safety capabilities of the model: simple instructions can reflect the basic values of the model, while complex instructions can reflect the model's ability to deal with deeper safety risks. Therefore, a comprehensive benchmark needs to be established to evaluate the safety performance of the model in the face of instructions of varying complexity, which can provide a better understanding of the safety boundaries of the LLMs. Thus, this paper first quantifies "Reasoning Complexity" as an evaluable safety dimension and categorizes 15 jailbreak attack methods into three different levels according to the reasoning complexity, establishing a hierarchical Chinese-English jailbreak safety benchmark for systematically evaluating the safety performance of LLMs. Meanwhile, to fully utilize unique language characteristics, we first propose some Chinese jailbreak attack methods, including the Chinese Character Disassembly attack, Lantern Riddle attack, and Acrostic Poem attack. A series of experiments indicate that current LLMs and LRMs show different safety boundaries under different reasoning complexity, which provides a new perspective to develop safer LLMs and LRMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れた理解力によって広く認識され、多くのドメインに展開されてきた。
CoT(Chain-of-Thought)イデオロギーに基づいて構築されたLarge Reasoning Model (LRM)は、さらに強力な推論スキルを示し、ユーザの意図をより正確に推測し、適切な応答を可能にする。
しかし LLM と LRM は、ジェイルブレイク攻撃による潜在的な安全リスクに直面しており、安全能力への懸念が高まる。
現在の安全性評価手法は、しばしば内容の寸法に焦点をあてるか、複雑さを考慮せずに、単に異なる攻撃手法を集約する。
単純な命令はモデルの基本的な値を反映し、複雑な命令はモデルのより深い安全性リスクに対処する能力を反映します。
したがって, LLMの安全性境界をよりよく理解するために, 様々な複雑さの指示に直面して, モデルの安全性性能を評価するために, 総合的なベンチマークを確立する必要がある。
そこで,本稿では,まず「推論複雑度」を評価可能な安全次元として定量化し,推論複雑さに応じて15のジェイルブレイク攻撃手法を3つのレベルに分類し,LLMの安全性性能を体系的に評価するための階層的な中国語と英語のジェイルブレイク安全ベンチマークを構築した。
一方, 独特な言語特性をフル活用するために, まず, 漢字分解攻撃, ランタン・リドル攻撃, アクロスティック・ポエム攻撃などの中国のジェイルブレイク攻撃手法を提案する。
一連の実験により、現在のLLMとLRMは、異なる推論複雑性の下で異なる安全性境界を示すことが示され、より安全なLLMとLRMを開発するための新たな視点を提供する。
関連論文リスト
- Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。
LLMの安全性を評価するための2次元フレームワークを提案する。
暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文 参考訳(メタデータ) (2025-06-03T05:00:12Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。