論文の概要: Steering Language Model Refusal with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2411.11296v1
- Date: Mon, 18 Nov 2024 05:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:48.605671
- Title: Steering Language Model Refusal with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いたステアリング言語モデル拒絶
- Authors: Kyle O'Brien, David Majercak, Xavier Fernandes, Richard Edgar, Jingya Chen, Harsha Nori, Dean Carignan, Eric Horvitz, Forough Poursabzi-Sangde,
- Abstract要約: 拒否動作を媒介するPhi-3 Miniの特徴を同定し,操舵する。
機能ステアリングはPhi-3 Minisのロバスト性を向上し,さまざまな障害に対するジェイルブレイクの試みに有効であることがわかった。
しかし、機能ステアリングはベンチマーク全体のパフォーマンスに悪影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 16.78963326253821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Responsible practices for deploying language models include guiding models to recognize and refuse answering prompts that are considered unsafe, while complying with safe prompts. Achieving such behavior typically requires updating model weights, which is costly and inflexible. We explore opportunities to steering model activations at inference time, which does not require updating weights. Using sparse autoencoders, we identify and steer features in Phi-3 Mini that mediate refusal behavior. We find that feature steering can improve Phi-3 Minis robustness to jailbreak attempts across various harms, including challenging multi-turn attacks. However, we discover that feature steering can adversely affect overall performance on benchmarks. These results suggest that identifying steerable mechanisms for refusal via sparse autoencoders is a promising approach for enhancing language model safety, but that more research is needed to mitigate feature steerings adverse effects on performance.
- Abstract(参考訳): 言語モデルをデプロイするための責任あるプラクティスには、安全なプロンプトに準拠しながら、安全でないと思われる応答プロンプトを認識し、拒否するモデルを導くことが含まれる。
このような振る舞いを達成するには、通常、費用がかかり柔軟性がないモデルウェイトを更新する必要がある。
重みを更新する必要のないモデルアクティベーションを推論時に操る機会を探究する。
スパースオートエンコーダを用いて, 拒絶動作を媒介するPhi-3 Miniの特徴を同定し, 操舵する。
機能ステアリングはPhi-3 Minisのロバスト性を向上し、マルチターン攻撃など、さまざまな障害に対してジェイルブレイクを試みることができる。
しかし、機能ステアリングがベンチマーク全体のパフォーマンスに悪影響を及ぼすことがわかりました。
これらの結果から,スパースオートエンコーダによる拒絶機構の同定は言語モデルの安全性を高める上で有望なアプローチであるが,機能ステアリングが性能に悪影響を及ぼすためには,さらなる研究が必要であることが示唆された。
関連論文リスト
- SAFER: Probing Safety in Reward Models with Sparse Autoencoder [15.804171763844323]
拡張リワードモデル(textbfSAFER)のためのスパースオートエンコーダを提案する。
我々は、報酬モデルアクティベーションにおける人間解釈可能な特徴を明らかにし、安全関連意思決定の洞察を可能にする。
実験の結果、SAFERは最小限のデータ修正で精度を低下させるか、安全アライメントを強化することができる。
論文 参考訳(メタデータ) (2025-07-01T11:04:03Z) - Improved Representation Steering for Language Models [50.86411958644953]
我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文 参考訳(メタデータ) (2025-05-27T07:16:40Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Towards Understanding and Improving Refusal in Compressed Models via Mechanistic Interpretability [7.73472615056109]
本稿では, 圧縮モデルの安全性について, 拒絶機構を検証して検討する。
本稿では,圧縮モデルの性能や実用性を損なうことなく,軽量で計算効率の良い圧縮モデルの安全性を高める手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T16:00:44Z) - Activation Space Interventions Can Be Transferred Between Large Language Models [0.0]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文 参考訳(メタデータ) (2025-03-06T13:38:44Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Applying Refusal-Vector Ablation to Llama 3.1 70B Agents [0.0]
本研究では,Llama 3.1 70Bにリファレルベクターアブレーションを適用し,単純なエージェントスキャフォールディングを実装し,制限のないエージェントを生成する。
以上の結果から,これらの拒否拒否ベクターアブレーションモデルが,流産やフィッシング攻撃などの有害なタスクを完了できることが示唆された。
Llama 3.1 インストラクションモデルでは,修正なしに最も有害なタスクを実行できるため,チャットモデルにおける安全性の微調整はエージェント動作に適さないことが示唆された。
論文 参考訳(メタデータ) (2024-10-08T13:42:36Z) - Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle [11.619942198710334]
本稿では,Phi-3シリーズの言語モデルの安全性向上のための手法を提案する。
サイクルを利用して、複数のデータセットキュレーション、安全後のトレーニング、ベンチマーク、レッドチーム、脆弱性識別を実行します。
結果は、このアプローチが幅広いAIベンチマークでPhi-3モデルの性能を反復的に改善したことを示している。
論文 参考訳(メタデータ) (2024-07-18T18:06:59Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Online Parameter Estimation for Human Driver Behavior Prediction [5.927030511296174]
インテリジェントドライバモデルに適用されたオンラインパラメータ推定は、衝突のない軌道を提供しながら、ニュアンスな個人運転行動をキャプチャすることを示す。
本研究は,運転モデルの真理データ実証における近接性を評価し,その結果の緊急運転行動の安全性を評価する。
論文 参考訳(メタデータ) (2020-05-06T05:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。