論文の概要: Feature-Guided SAE Steering for Refusal-Rate Control using Contrasting Prompts
- arxiv url: http://arxiv.org/abs/2511.00029v1
- Date: Sun, 26 Oct 2025 20:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.52285
- Title: Feature-Guided SAE Steering for Refusal-Rate Control using Contrasting Prompts
- Title(参考訳): コントラストプロンプトを用いたリフレクションレート制御のための特徴誘導型SAEステアリング
- Authors: Samaksh Bhargav, Zining Zhu,
- Abstract要約: LLM(Large Language Model)デプロイメントでは、LLMが安全でないプロンプトを認識し、安全でないプロンプトに応答しないように指示する必要がある。
これを実現するには、他の高価な手順とともにモデルの重みを調整する必要がある。
我々は,スパースオートエンコーダ(SAE)を用いて,異なるステアリング機能とステアリング強度を用いてソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.1565815257603067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) deployment requires guiding the LLM to recognize and not answer unsafe prompts while complying with safe prompts. Previous methods for achieving this require adjusting model weights along with other expensive procedures. While recent advances in Sparse Autoencoders (SAEs) have enabled interpretable feature extraction from LLMs, existing approaches lack systematic feature selection methods and principled evaluation of safety-utility tradeoffs. We explored using different steering features and steering strengths using Sparse Auto Encoders (SAEs) to provide a solution. Using an accurate and innovative contrasting prompt method with the AI-Generated Prompts Dataset from teknium/OpenHermes-2p5-Mistral-7B and Air Bench eu-dataset to efficiently choose the best features in the model to steer, we tested this method on Llama-3 8B. We conclude that using this method, our approach achieves an 18.9% improvement in safety performance while simultaneously increasing utility by 11.1%, demonstrating that targeted SAE steering can overcome traditional safety-utility tradeoffs when optimal features are identified through principled selection methods.
- Abstract(参考訳): LLM(Large Language Model)デプロイメントでは、LLMが安全でないプロンプトを認識し、安全でないプロンプトに応答しないように指示する必要がある。
これを実現するには、他の高価な手順とともにモデルの重みを調整する必要がある。
近年のスパースオートエンコーダ(SAE)の進歩により,LLMからの解釈可能な特徴抽出が可能となったが,既存の手法では系統的特徴選択法や安全ユーティリティトレードオフの原則的評価が欠如している。
Sparse Auto Encoders (SAEs) を用いて, 異なるステアリング機能とステアリング強度を用いて, ソリューションの提供を検討した。
テクニウム/OpenHermes-2p5-Mistral-7BとAir Bench eu-datasetのAI生成Promptsデータセットを用いた高精度で革新的なコントラストプロンプト手法を用いて,モデル内の最良の特徴を効率的に選択し,Llama-3 8B上で実験を行った。
提案手法を用いることで, 安全性能が18.9%向上し, 実用性も11.1%向上し, 従来型の安全ユーティリティトレードオフを克服できることを示す。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。
これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文 参考訳(メタデータ) (2024-03-18T14:48:29Z) - A Safe Preference Learning Approach for Personalization with Applications to Autonomous Vehicles [1.5553847214012173]
この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入している。
本稿では,ペア比較に基づく安全保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は,従来の選好学習法と比較して,従来の選好学習法と比較して競争力があり,安全性を考慮した場合,特に優れる。
論文 参考訳(メタデータ) (2023-10-30T21:52:37Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。