論文の概要: Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs
- arxiv url: http://arxiv.org/abs/2604.20945v1
- Date: Wed, 22 Apr 2026 16:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.111801
- Title: Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs
- Title(参考訳): 破滅的悪: 解釈可能性に基づく「現状のLLM」の安全監査
- Authors: Krishiv Agarwal, Ramneet Kaur, Colin Samplawski, Manoj Acharya, Anirban Roy, Daniel Elenius, Brian Matejek, Adam D. Cobb, Susmit Jha,
- Abstract要約: 我々は8つのオープンソース大言語モデル(LLM)の総合的、解釈可能性駆動型ジェイルブレイク監査について述べる。
安全でない動作概念に対して最適なアクティベーション・ステアリング係数を同定する2段階グリッド探索アルゴリズムを提案する。
本研究は,系統的安全監査のための強力なツールとして,解釈可能性に基づくステアリングを確立し,その二重利用リスクを強調した。
- 参考スコア(独自算出の注目度): 12.500730166535105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective safety auditing of large language models (LLMs) demands tools that go beyond black-box probing and systematically uncover vulnerabilities rooted in model internals. We present a comprehensive, interpretability-driven jailbreaking audit of eight SOTA open-source LLMs: Llama-3.1-8B, Llama-3.3-70B-4bt, GPT-oss- 20B, GPT-oss-120B, Qwen3-0.6B, Qwen3-32B, Phi4-3.8B, and Phi4-14B. Leveraging interpretability-based approaches -- Universal Steering (US) and Representation Engineering (RepE) -- we introduce an adaptive two-stage grid search algorithm to identify optimal activation-steering coefficients for unsafe behavioral concepts. Our evaluation, conducted on a curated set of harmful queries and a standardized LLM-based judging protocol, reveals stark contrasts in model robustness. The Llama-3 models are highly vulnerable, with up to 91\% (US) and 83\% (RepE) jailbroken responses on Llama-3.3-70B-4bt, while GPT-oss-120B remains robust to attacks via both interpretability approaches. Qwen and Phi models show mixed results, with the smaller Qwen3-0.6B and Phi4-3.8B mostly exhibiting lower jailbreaking rates, while their larger counterparts are more susceptible. Our results establish interpretability-based steering as a powerful tool for systematic safety audits, but also highlight its dual-use risks and the need for better internal defenses in LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の効果的な安全性監査は、ブラックボックスの探索を超えて、モデル内部に根ざした脆弱性を体系的に発見するツールを必要とする。
Llama-3.1-8B, Llama-3.3-70B-4bt, GPT-oss-20B, GPT-oss-120B, Qwen3-0.6B, Qwen3-32B, Phi4-3.8B, Phi4-14B。
ユニバーサルステアリング(US)とRepresentation Engineering(RepE)の2段階グリッド探索アルゴリズムを導入し、安全でない動作概念に対する最適なアクティベーション-ステアリング係数を同定する。
提案手法は, 有害クエリのキュレートと, LLMに基づく判定プロトコルの標準化により, モデルロバスト性に強いコントラストを呈する。
Llama-3 モデルは非常に脆弱で、Llama-3.3-70B-4bt では 91\% (US) と 83\% (RepE) のジェイルブレイク反応がある。
Qwen と Phi のモデルでは、より小さな Qwen3-0.6B と Phi4-3.8B はより低いジェイルブレイク率を示すが、大きなモデルの方がより感受性が高い。
本研究は,系統的安全監査のための強力なツールとして,解釈可能性に基づくステアリングを確立するとともに,その二重利用リスクとLCM配置における内部防御の改善の必要性を強調した。
関連論文リスト
- Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs [5.478971182058342]
安全評価はほとんどの場合、プロンプトベースのペルソナのみを研究する。
プロンプトとアクティベーションのステアリングは *different*,アーキテクチャに依存した脆弱性プロファイルを公開します。
論文 参考訳(メタデータ) (2026-04-13T07:34:02Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文 参考訳(メタデータ) (2026-04-01T02:42:41Z) - Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment [37.06683377953812]
大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T03:26:45Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。