Fugu-MT 論文翻訳(概要): BarrierSteer: LLM Safety via Learning Barrier Steering

論文の概要: BarrierSteer: LLM Safety via Learning Barrier Steering

arxiv url: http://arxiv.org/abs/2602.20102v1
Date: Mon, 23 Feb 2026 18:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.942175
Title: BarrierSteer: LLM Safety via Learning Barrier Steering
Title（参考訳）: BarrierSteer:ラーニングバリアステアリングによるLCM安全性
Authors: Thanh Q. Tran, Arun Verma, Kiwan Wong, Bryan Kian Hsiang Low, Daniela Rus, Wei Xiao,
Abstract要約: BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。 BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
参考スコア（独自算出の注目度）: 83.12893815611052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the state-of-the-art performance of large language models (LLMs) across diverse tasks, their susceptibility to adversarial attacks and unsafe content generation remains a major obstacle to deployment, particularly in high-stakes settings. Addressing this challenge requires safety mechanisms that are both practically effective and supported by rigorous theory. We introduce BarrierSteer, a novel framework that formalizes response safety by embedding learned non-linear safety constraints directly into the model's latent representation space. BarrierSteer employs a steering mechanism based on Control Barrier Functions (CBFs) to efficiently detect and prevent unsafe response trajectories during inference with high precision. By enforcing multiple safety constraints through efficient constraint merging, without modifying the underlying LLM parameters, BarrierSteer preserves the model's original capabilities and performance. We provide theoretical results establishing that applying CBFs in latent space offers a principled and computationally efficient approach to enforcing safety. Our experiments across multiple models and datasets show that BarrierSteer substantially reduces adversarial success rates, decreases unsafe generations, and outperforms existing methods.
Abstract（参考訳）: さまざまなタスクにまたがる大規模言語モデル(LLM)の最先端のパフォーマンスにもかかわらず、敵攻撃や安全でないコンテンツ生成への感受性は、特に高レベルの環境では、デプロイメントの大きな障害となっている。この課題に対処するには、厳密な理論によって支援され、実用的に効果的である安全メカニズムが必要である。 BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、応答安全性を形式化する新しいフレームワークである。 BarrierSteerは、制御バリア関数(CBF)に基づくステアリング機構を使用して、高精度な推論中に安全でない応答軌跡を効率的に検出し、防止する。複数の安全性制約を効率的にマージすることで、基礎となるLLMパラメータを変更することなく、複数の安全性制約を強制することにより、BarrierSteerはモデルの本来の機能とパフォーマンスを維持できる。我々は、潜在空間におけるCBFの適用が、安全を強制するための原理的かつ計算学的に効率的なアプローチであることを示す理論的結果を提供する。複数のモデルとデータセットにわたる実験により、BarrierSteerは敵の成功率を大幅に削減し、安全でない世代を減らし、既存の手法より優れていることが示された。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
V-OCBF: Learning Safety Filters from Offline Data via Value-Guided Offline Control Barrier Functions [8.042484673796137]
V-OCBF(Value-Guided Offline Control Barrier Function)を導入する。オフラインデモから完全にニューラルネットワークCBFを学習する。基準法よりも安全性違反が著しく少ない。
論文参考訳（メタデータ） (2025-12-11T17:14:37Z)
UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文参考訳（メタデータ） (2025-10-02T16:43:33Z)
Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。 LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文参考訳（メタデータ） (2025-09-08T15:24:33Z)
Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文参考訳（メタデータ） (2025-08-12T02:39:33Z)
SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文参考訳（メタデータ） (2025-06-01T01:19:37Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-29T13:08:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。