論文の概要: BarrierSteer: LLM Safety via Learning Barrier Steering
- arxiv url: http://arxiv.org/abs/2602.20102v1
- Date: Mon, 23 Feb 2026 18:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.942175
- Title: BarrierSteer: LLM Safety via Learning Barrier Steering
- Title(参考訳): BarrierSteer:ラーニングバリアステアリングによるLCM安全性
- Authors: Thanh Q. Tran, Arun Verma, Kiwan Wong, Bryan Kian Hsiang Low, Daniela Rus, Wei Xiao,
- Abstract要約: BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 83.12893815611052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the state-of-the-art performance of large language models (LLMs) across diverse tasks, their susceptibility to adversarial attacks and unsafe content generation remains a major obstacle to deployment, particularly in high-stakes settings. Addressing this challenge requires safety mechanisms that are both practically effective and supported by rigorous theory. We introduce BarrierSteer, a novel framework that formalizes response safety by embedding learned non-linear safety constraints directly into the model's latent representation space. BarrierSteer employs a steering mechanism based on Control Barrier Functions (CBFs) to efficiently detect and prevent unsafe response trajectories during inference with high precision. By enforcing multiple safety constraints through efficient constraint merging, without modifying the underlying LLM parameters, BarrierSteer preserves the model's original capabilities and performance. We provide theoretical results establishing that applying CBFs in latent space offers a principled and computationally efficient approach to enforcing safety. Our experiments across multiple models and datasets show that BarrierSteer substantially reduces adversarial success rates, decreases unsafe generations, and outperforms existing methods.
- Abstract(参考訳): さまざまなタスクにまたがる大規模言語モデル(LLM)の最先端のパフォーマンスにもかかわらず、敵攻撃や安全でないコンテンツ生成への感受性は、特に高レベルの環境では、デプロイメントの大きな障害となっている。
この課題に対処するには、厳密な理論によって支援され、実用的に効果的である安全メカニズムが必要である。
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、応答安全性を形式化する新しいフレームワークである。
BarrierSteerは、制御バリア関数(CBF)に基づくステアリング機構を使用して、高精度な推論中に安全でない応答軌跡を効率的に検出し、防止する。
複数の安全性制約を効率的にマージすることで、基礎となるLLMパラメータを変更することなく、複数の安全性制約を強制することにより、BarrierSteerはモデルの本来の機能とパフォーマンスを維持できる。
我々は、潜在空間におけるCBFの適用が、安全を強制するための原理的かつ計算学的に効率的なアプローチであることを示す理論的結果を提供する。
複数のモデルとデータセットにわたる実験により、BarrierSteerは敵の成功率を大幅に削減し、安全でない世代を減らし、既存の手法より優れていることが示された。
関連論文リスト
- Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - V-OCBF: Learning Safety Filters from Offline Data via Value-Guided Offline Control Barrier Functions [8.042484673796137]
V-OCBF(Value-Guided Offline Control Barrier Function)を導入する。
オフラインデモから完全にニューラルネットワークCBFを学習する。
基準法よりも安全性違反が著しく少ない。
論文 参考訳(メタデータ) (2025-12-11T17:14:37Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。