論文の概要: Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs
- arxiv url: http://arxiv.org/abs/2602.01600v1
- Date: Mon, 02 Feb 2026 03:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.883629
- Title: Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs
- Title(参考訳): 期待されるハーム:(ミス)LLMの安全性評価の再考
- Authors: Yen-Shan Chen, Zhi Rui Tam, Cheng-Kuang Wu, Yun-Nung Chen,
- Abstract要約: 我々は、実行コストの関数としてモデル化された、Jailbreakの重大度をその実行可能性によって重み付けする、期待されるHarmを紹介した。
このプロパティを利用することで、既存のjailbreakの攻撃成功率を最大2倍に向上させます。
- 参考スコア(独自算出の注目度): 24.88278177777809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current evaluations of LLM safety predominantly rely on severity-based taxonomies to assess the harmfulness of malicious queries. We argue that this formulation requires re-examination as it assumes uniform risk across all malicious queries, neglecting Execution Likelihood--the conditional probability of a threat being realized given the model's response. In this work, we introduce Expected Harm, a metric that weights the severity of a jailbreak by its execution likelihood, modeled as a function of execution cost. Through empirical analysis of state-of-the-art models, we reveal a systematic Inverse Risk Calibration: models disproportionately exhibit stronger refusal behaviors for low-likelihood (high-cost) threats while remaining vulnerable to high-likelihood (low-cost) queries. We demonstrate that this miscalibration creates a structural vulnerability: by exploiting this property, we increase the attack success rate of existing jailbreaks by up to $2\times$. Finally, we trace the root cause of this failure using linear probing, which reveals that while models encode severity in their latent space to drive refusal decisions, they possess no distinguishable internal representation of execution cost, making them "blind" to this critical dimension of risk.
- Abstract(参考訳): LLMの安全性の現在の評価は、悪意のあるクエリの有害性を評価するために、重度に基づく分類に依存している。
この定式化は、すべての悪意のあるクエリに対して一様リスクを前提として再検査が必要であり、モデルが応答した場合の脅威の条件付き確率(Execution Likelihood)を無視する。
本稿では,実行コストの関数としてモデル化された,Jailbreakの重大度をその実行可能性によって重み付けする指標であるPrestanted Harmを紹介する。
我々は、最先端のモデルの実証分析を通じて、体系的な逆リスク校正(Inverse Risk Calibration)を明らかにする: モデルは、低様(高)の脅威に対して強い拒絶行動を示す一方で、高様(低)のクエリに弱いままである。
このプロパティを悪用することで、既存のjailbreakの攻撃成功率を最大2\times$まで向上させます。
最後に、この失敗の原因を線形探索を用いて追究し、モデルが遅延空間の重大性を符号化して拒否決定を導く一方で、それらは実行コストの区別可能な内部表現を持たず、この重要なリスクの次元に"盲目"することを示した。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents [30.378925170216835]
大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:50Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Selecting Models based on the Risk of Damage Caused by Adversarial
Attacks [2.969705152497174]
規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。