論文の概要: Feature-Guided SAE Steering for Refusal-Rate Control using Contrasting Prompts
- arxiv url: http://arxiv.org/abs/2511.00029v1
- Date: Sun, 26 Oct 2025 20:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.52285
- Title: Feature-Guided SAE Steering for Refusal-Rate Control using Contrasting Prompts
- Title(参考訳): コントラストプロンプトを用いたリフレクションレート制御のための特徴誘導型SAEステアリング
- Authors: Samaksh Bhargav, Zining Zhu,
- Abstract要約: LLM(Large Language Model)デプロイメントでは、LLMが安全でないプロンプトを認識し、安全でないプロンプトに応答しないように指示する必要がある。
これを実現するには、他の高価な手順とともにモデルの重みを調整する必要がある。
我々は,スパースオートエンコーダ(SAE)を用いて,異なるステアリング機能とステアリング強度を用いてソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.1565815257603067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) deployment requires guiding the LLM to recognize and not answer unsafe prompts while complying with safe prompts. Previous methods for achieving this require adjusting model weights along with other expensive procedures. While recent advances in Sparse Autoencoders (SAEs) have enabled interpretable feature extraction from LLMs, existing approaches lack systematic feature selection methods and principled evaluation of safety-utility tradeoffs. We explored using different steering features and steering strengths using Sparse Auto Encoders (SAEs) to provide a solution. Using an accurate and innovative contrasting prompt method with the AI-Generated Prompts Dataset from teknium/OpenHermes-2p5-Mistral-7B and Air Bench eu-dataset to efficiently choose the best features in the model to steer, we tested this method on Llama-3 8B. We conclude that using this method, our approach achieves an 18.9% improvement in safety performance while simultaneously increasing utility by 11.1%, demonstrating that targeted SAE steering can overcome traditional safety-utility tradeoffs when optimal features are identified through principled selection methods.
- Abstract(参考訳): LLM(Large Language Model)デプロイメントでは、LLMが安全でないプロンプトを認識し、安全でないプロンプトに応答しないように指示する必要がある。
これを実現するには、他の高価な手順とともにモデルの重みを調整する必要がある。
近年のスパースオートエンコーダ(SAE)の進歩により,LLMからの解釈可能な特徴抽出が可能となったが,既存の手法では系統的特徴選択法や安全ユーティリティトレードオフの原則的評価が欠如している。
Sparse Auto Encoders (SAEs) を用いて, 異なるステアリング機能とステアリング強度を用いて, ソリューションの提供を検討した。
テクニウム/OpenHermes-2p5-Mistral-7BとAir Bench eu-datasetのAI生成Promptsデータセットを用いた高精度で革新的なコントラストプロンプト手法を用いて,モデル内の最良の特徴を効率的に選択し,Llama-3 8B上で実験を行った。
提案手法を用いることで, 安全性能が18.9%向上し, 実用性も11.1%向上し, 従来型の安全ユーティリティトレードオフを克服できることを示す。
関連論文リスト
- Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models [0.3966526231056968]
アクティベーションステアリング(AS)は、既存の2つのポストトレーニング方法に代わる、安価で、高速で、制御可能な代替手段を約束する。
完全に自動化された手法のファミリーであるPainless Activation Steering (PAS)を紹介する。
PASは行動タスクのパフォーマンスを確実に向上させるが、インテリジェンス指向のタスクには向いていない。
論文 参考訳(メタデータ) (2025-09-25T23:25:47Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。
これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文 参考訳(メタデータ) (2024-03-18T14:48:29Z) - A Safe Preference Learning Approach for Personalization with Applications to Autonomous Vehicles [1.5553847214012173]
この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入している。
本稿では,ペア比較に基づく安全保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は,従来の選好学習法と比較して,従来の選好学習法と比較して競争力があり,安全性を考慮した場合,特に優れる。
論文 参考訳(メタデータ) (2023-10-30T21:52:37Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Efficient falsification approach for autonomous vehicle validation using
a parameter optimisation technique based on reinforcement learning [6.198523595657983]
自律走行車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。
交通参加者とダイナミックワールドの行動の不確実性は、先進的な自律システムにおいて反応を引き起こす。
本稿では,システム・アンダー・テストを評価するための効率的なファルシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T02:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。