論文の概要: Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures
- arxiv url: http://arxiv.org/abs/2605.29629v1
- Date: Thu, 28 May 2026 09:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.565478
- Title: Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures
- Title(参考訳): 攻撃成功率を超える - LLMの安全性障害に対する時間的ロジットオブザーバビリティ
- Authors: Junyoung Park, Sunghwan Park, Seongyong Ju, Jaewoo Lee,
- Abstract要約: 攻撃成功率(ASR)は、各ジェイルブレイクを世代末に1つのye/noラベルで評価する。
私たちはこれらの隠れたパスを、ロジットだけで観察できるようにします。
- 参考スコア(独自算出の注目度): 9.42946566157669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attack Success Rate (ASR) evaluates each jailbreak with a single yes/no label at the end of generation, telling us whether a failure happened but not how it unfolded. Two attacks that produce equally harmful outputs may have followed completely different paths, and ASR cannot tell them apart. We make those hidden paths observable from logits alone. Temporal Logit Observability (TLO) is a training-free diagnostic that watches a compliance-refusal margin during decoding and places each model-attack condition on a calibrated 2D plane. By design, this plane is most informative exactly where ASR is least informative: among attacks that succeed for genuinely different reasons. Across four aligned LLMs and three jailbreak paradigms, attacks with nearly identical ASR land at clearly different points on the plane: the same model can fail through different temporal patterns. The geometry matches refusal-direction probes from hidden states on most conditions, with one model showing the limit of our fixed-lexicon approach. A simple early-stop rule derived from TLO cuts successful jailbreaks by more than half, without false alarms on plain benign queries. Safety evaluation should report when and how a failure unfolds, not only whether it occurred. TLO makes the first two observable from logits alone.
- Abstract(参考訳): アタック成功率(ASR)は、各ジェイルブレイクを世代末に1つのye/noラベルで評価し、障害が発生したか、どのように展開されたかを示す。
同様に有害な出力を生み出す2つの攻撃は、全く異なる経路を辿った可能性があり、ASRはそれらを区別できない。
私たちはこれらの隠れたパスを、ロジットだけで観察できるようにします。
テンポラルロジットオブザーバビリティ(TLO)は、デコード中のコンプライアンス・リフレクション・マージンを監視し、各モデル・アタック条件を校正された2次元平面上に配置する、トレーニング不要の診断である。
設計上、この飛行機はASRが最も情報に乏しい場所であり、真に異なる理由で成功した攻撃の中でも最も情報に富んでいる。
4つのLLMと3つのジェイルブレイクのパラダイムにまたがって、ほぼ同一のASRが平面上のはっきりと異なる地点に着地する攻撃は、同じモデルが異なる時間パターンで失敗する可能性がある。
幾何学は、ほとんどの条件における隠れ状態からの拒絶方向プローブと一致し、固定辞書アプローチの限界を示す1つのモデルを示す。
TLOから派生した単純なアーリーストップルールは、単純な良質なクエリに対する誤った警告なしで、成功したジェイルブレイクを半分以上削減する。
安全評価は、障害が発生したかどうかだけでなく、いつ、どのように失敗が展開するかを報告すべきである。
TLOは、最初の2つをログだけで観測できる。
関連論文リスト
- Semantic Denial of Service in LLM-controlled robots [2.1942030377331245]
敵は、モデルをジェイルブレイクしたりポリシーをオーバーライドしたりすることなく、モデルが実行を停止または中断する理由をモデルに引き起こすことが示される。
即時防衛は、真のハザード反応に対する攻撃抑制を禁止している。
実際の意味は、プロンプトレベルではなくアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-25T10:52:29Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。