論文の概要: Steering Language Model Refusal with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2411.11296v1
- Date: Mon, 18 Nov 2024 05:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:27.072128
- Title: Steering Language Model Refusal with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いたステアリング言語モデル拒絶
- Authors: Kyle O'Brien, David Majercak, Xavier Fernandes, Richard Edgar, Jingya Chen, Harsha Nori, Dean Carignan, Eric Horvitz, Forough Poursabzi-Sangde,
- Abstract要約: 拒否動作を媒介するPhi-3 Miniの特徴を同定し,操舵する。
機能ステアリングはPhi-3 Minisのロバスト性を向上し,さまざまな障害に対するジェイルブレイクの試みに有効であることがわかった。
しかし、機能ステアリングはベンチマーク全体のパフォーマンスに悪影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 16.78963326253821
- License:
- Abstract: Responsible practices for deploying language models include guiding models to recognize and refuse answering prompts that are considered unsafe, while complying with safe prompts. Achieving such behavior typically requires updating model weights, which is costly and inflexible. We explore opportunities to steering model activations at inference time, which does not require updating weights. Using sparse autoencoders, we identify and steer features in Phi-3 Mini that mediate refusal behavior. We find that feature steering can improve Phi-3 Minis robustness to jailbreak attempts across various harms, including challenging multi-turn attacks. However, we discover that feature steering can adversely affect overall performance on benchmarks. These results suggest that identifying steerable mechanisms for refusal via sparse autoencoders is a promising approach for enhancing language model safety, but that more research is needed to mitigate feature steerings adverse effects on performance.
- Abstract(参考訳): 言語モデルをデプロイするための責任あるプラクティスには、安全なプロンプトに準拠しながら、安全でないと思われる応答プロンプトを認識し、拒否するモデルを導くことが含まれる。
このような振る舞いを達成するには、通常、費用がかかり柔軟性がないモデルウェイトを更新する必要がある。
重みを更新する必要のないモデルアクティベーションを推論時に操る機会を探究する。
スパースオートエンコーダを用いて, 拒絶動作を媒介するPhi-3 Miniの特徴を同定し, 操舵する。
機能ステアリングはPhi-3 Minisのロバスト性を向上し、マルチターン攻撃など、さまざまな障害に対してジェイルブレイクを試みることができる。
しかし、機能ステアリングがベンチマーク全体のパフォーマンスに悪影響を及ぼすことがわかりました。
これらの結果から,スパースオートエンコーダによる拒絶機構の同定は言語モデルの安全性を高める上で有望なアプローチであるが,機能ステアリングが性能に悪影響を及ぼすためには,さらなる研究が必要であることが示唆された。
関連論文リスト
- Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Applying Refusal-Vector Ablation to Llama 3.1 70B Agents [0.0]
本研究では,Llama 3.1 70Bにリファレルベクターアブレーションを適用し,単純なエージェントスキャフォールディングを実装し,制限のないエージェントを生成する。
以上の結果から,これらの拒否拒否ベクターアブレーションモデルが,流産やフィッシング攻撃などの有害なタスクを完了できることが示唆された。
Llama 3.1 インストラクションモデルでは,修正なしに最も有害なタスクを実行できるため,チャットモデルにおける安全性の微調整はエージェント動作に適さないことが示唆された。
論文 参考訳(メタデータ) (2024-10-08T13:42:36Z) - Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle [11.619942198710334]
本稿では,Phi-3シリーズの言語モデルの安全性向上のための手法を提案する。
サイクルを利用して、複数のデータセットキュレーション、安全後のトレーニング、ベンチマーク、レッドチーム、脆弱性識別を実行します。
結果は、このアプローチが幅広いAIベンチマークでPhi-3モデルの性能を反復的に改善したことを示している。
論文 参考訳(メタデータ) (2024-07-18T18:06:59Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Online Parameter Estimation for Human Driver Behavior Prediction [5.927030511296174]
インテリジェントドライバモデルに適用されたオンラインパラメータ推定は、衝突のない軌道を提供しながら、ニュアンスな個人運転行動をキャプチャすることを示す。
本研究は,運転モデルの真理データ実証における近接性を評価し,その結果の緊急運転行動の安全性を評価する。
論文 参考訳(メタデータ) (2020-05-06T05:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。