論文の概要: Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal
- arxiv url: http://arxiv.org/abs/2509.09708v1
- Date: Sun, 07 Sep 2025 02:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.83255
- Title: Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal
- Title(参考訳): 残念なことに、大きな言語モデルの拒絶を断ることはできない
- Authors: Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee,
- Abstract要約: 有害なプロンプトの拒絶は、命令調整型大規模言語モデル(LLM)における重要な安全行動である
残留ストリームアクティベーションを訓練したスパースオートエンコーダ(SAE)を用いて、Gemma-2-2B-ITとLLaMA-3.1-8B-ITの2つの公開命令チューニングモデルについて検討した。
有害なプロンプトが与えられた場合、私たちはSAE潜伏空間を探索し、アブレーションがモデルを拒絶からコンプライアンスに反転させ、因果的影響を示し、ジェイルブレイクを発生させる特徴セットを探索する。
- 参考スコア(独自算出の注目度): 40.3000670795883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refusal on harmful prompts is a key safety behaviour in instruction-tuned large language models (LLMs), yet the internal causes of this behaviour remain poorly understood. We study two public instruction-tuned models, Gemma-2-2B-IT and LLaMA-3.1-8B-IT, using sparse autoencoders (SAEs) trained on residual-stream activations. Given a harmful prompt, we search the SAE latent space for feature sets whose ablation flips the model from refusal to compliance, demonstrating causal influence and creating a jailbreak. Our search proceeds in three stages: (1) Refusal Direction: find a refusal-mediating direction and collect SAE features near that direction; (2) Greedy Filtering: prune to a minimal set; and (3) Interaction Discovery: fit a factorization machine (FM) that captures nonlinear interactions among the remaining active features and the minimal set. This pipeline yields a broad set of jailbreak-critical features, offering insight into the mechanistic basis of refusal. Moreover, we find evidence of redundant features that remain dormant unless earlier features are suppressed. Our findings highlight the potential for fine-grained auditing and targeted intervention in safety behaviours by manipulating the interpretable latent space.
- Abstract(参考訳): 有害なプロンプトの拒絶は、命令調整された大規模言語モデル(LLM)において重要な安全行動である。
残留ストリームアクティベーションを訓練したスパースオートエンコーダ(SAE)を用いて、Gemma-2-2B-ITとLLaMA-3.1-8B-ITの2つの公開命令チューニングモデルについて検討した。
有害なプロンプトが与えられた場合、私たちはSAE潜伏空間を探索し、アブレーションがモデルを拒絶からコンプライアンスに反転させ、因果的影響を示し、ジェイルブレイクを発生させる特徴セットを探索する。
探索は,(1)拒絶方向:拒絶媒介方向を見つけ,その方向付近のSAE特徴を収集する,(2)グリーディフィルタリング:最小集合へのプーン,(3)相互作用発見:残りの活動特徴と最小集合間の非線形相互作用を捉える因子化マシン(FM)に適合する,という3段階で進行する。
このパイプラインは、幅広いジェイルブレイククリティカルな特徴をもたらし、拒絶の力学的基礎についての洞察を提供する。
さらに,従来の特徴が抑制されない限り,余分な特徴が保留状態のままであることを示す。
本研究は,解釈可能な潜伏空間の操作により,きめ細かな監査や安全行動への介入の可能性を明らかにするものである。
関連論文リスト
- Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文 参考訳(メタデータ) (2025-05-29T15:33:39Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders [3.6367827664262715]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションではユビキタスだが、望ましくない有害な出力を生成する。
我々はスパースオートエンコーダ(SAE)を利用してモデル残差ストリームの毒性関連方向を特定し、ターゲットのアクティベーションステアリングを行う。
論文 参考訳(メタデータ) (2025-05-20T15:55:31Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。