論文の概要: Learning Safety Constraints for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24445v1
- Date: Fri, 30 May 2025 10:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.90483
- Title: Learning Safety Constraints for Large Language Models
- Title(参考訳): 大規模言語モデルのための安全制約の学習
- Authors: Xin Chen, Yarden As, Andreas Krause,
- Abstract要約: 大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。
モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。
我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
- 参考スコア(独自算出の注目度): 41.95596134688853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as powerful tools but pose significant safety risks through harmful outputs and vulnerability to adversarial attacks. We propose SaP, short for Safety Polytope, a geometric approach to LLM safety that learns and enforces multiple safety constraints directly in the model's representation space. We develop a framework that identifies safe and unsafe regions via the polytope's facets, enabling both detection and correction of unsafe outputs through geometric steering. Unlike existing approaches that modify model weights, SaP operates post-hoc in the representation space, preserving model capabilities while enforcing safety constraints. Experiments across multiple LLMs demonstrate that our method can effectively detect unethical inputs, reduce adversarial attack success rates while maintaining performance on standard tasks, thus highlighting the importance of having an explicit geometric model for safety. Analysis of the learned polytope facets reveals emergence of specialization in detecting different semantic notions of safety, providing interpretable insights into how safety is captured in LLMs' representation space.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なツールとして登場したが、有害なアウトプットと敵の攻撃に対する脆弱性によって重大な安全性のリスクが生じる。
モデル表現空間において,複数の安全制約を直接学習し,適用するLLM安全性に対する幾何学的アプローチであるSafety Polytopeの略として,SaPを提案する。
我々は,ポリトープの面を通して安全かつ安全でない領域を識別するフレームワークを開発し,幾何学的ステアリングによる安全でない出力の検出と補正を可能にする。
モデルウェイトを変更する既存のアプローチとは異なり、SaPは表現空間でポストホックを動作させ、モデルの能力を維持しながら安全性の制約を強制する。
複数のLSMを対象とした実験により,本手法は非倫理的入力を効果的に検出し,標準的なタスクの性能を維持しながら敵の攻撃成功率を低減し,安全のための明示的な幾何モデルを持つことの重要性を強調した。
学習されたポリトープの顔の分析は、安全性の異なるセマンティックな概念を検出するための特殊化の出現を明らかにし、LLMの表現空間における安全性の獲得方法に関する解釈可能な洞察を提供する。
関連論文リスト
- Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - Towards Inference-time Category-wise Safety Steering for Large Language Models [3.712541089289745]
大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
論文 参考訳(メタデータ) (2024-10-02T02:02:06Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。