論文の概要: Selective Safety Steering via Value-Filtered Decoding
- arxiv url: http://arxiv.org/abs/2605.14746v1
- Date: Thu, 14 May 2026 12:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.80988
- Title: Selective Safety Steering via Value-Filtered Decoding
- Title(参考訳): 値フィルタデコードによる選択的安全ステアリング
- Authors: Bat-Sheva Einbinder, Hen Davidov, Yee Whye Teh, Yarin Gal, Yaniv Romano,
- Abstract要約: 大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
- 参考スコア(独自算出の注目度): 54.87935112120107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are trained to align with human values, their generations may still violate safety constraints. A growing line of work addresses this problem by modifying the model's sampling policy at decoding time using a safety reward. However, existing decoding-time steering methods often intervene unnecessarily, modifying generations that would have been safe under the base model. Such unnecessary interventions are undesirable, as they can distort key properties of the base model such as helpfulness, fluency, style, and coherence. We propose a new test-time steering method designed to reduce such unnecessary interventions while improving the safety of unsafe responses. Our approach filters tokens using a value-based safety criterion and provides an explicit bound on the probability of false interventions. A single threshold hyperparameter controls this bound, allowing practitioners to trade off higher rates of unnecessary intervention for better output safety. Across multiple datasets and experiments, we show that our value-filtered decoding method outperforms existing baselines, achieving better trade-offs between safety, helpfulness, and similarity to the base model.
- Abstract(参考訳): 大きな言語モデル(LLM)は人間の価値に合わせて訓練されているが、その世代は安全上の制約に反する可能性がある。
安全報酬を使用して復号時にモデルのサンプリングポリシーを変更することで、この問題に対処する作業が増えている。
しかし、既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
このような不要な介入は、助け、流派、スタイル、一貫性といったベースモデルのキープロパティを歪めることができるため、望ましくない。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
提案手法は,価値に基づく安全基準を用いてトークンをフィルタリングし,誤介入の可能性を明示する。
単一しきい値のハイパーパラメータがこのバウンダリを制御し、不要な介入のより高いレートをトレードオフすることで、出力安全性を向上する。
複数のデータセットや実験を通して、我々の値フィルタリング復号法は既存のベースラインより優れており、安全性、有用性、およびベースモデルと類似性の間のトレードオフが良好であることを示す。
関連論文リスト
- Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning [4.839980912290382]
大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T03:42:55Z) - ProSocialAlign: Preference Conditioned Test Time Alignment in Language Models [24.690320002468862]
現在の言語モデルの安全性パラダイムは、感情的にチャージされたり、高レベルな設定で不足することが多い。
ProSocialAlignはテスト時間、パラメータ効率のよいフレームワークで、安全で共感的で、価値に整合した応答を生成できる。
論文 参考訳(メタデータ) (2025-12-06T18:00:37Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。