論文の概要: Enhancing Safety of Large Language Models via Embedding Space Separation
- arxiv url: http://arxiv.org/abs/2603.20206v1
- Date: Sun, 01 Mar 2026 07:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.883594
- Title: Enhancing Safety of Large Language Models via Embedding Space Separation
- Title(参考訳): 埋め込み空間分離による大規模言語モデルの安全性向上
- Authors: Xu Zhao, Xiting Wang, Weiran Shen,
- Abstract要約: 大きな言語モデル(LLM)は印象的な機能を達成したが、有害なプロンプトに対する安全性を保証することは、依然として重要な課題である。
最近の研究によると、LLMにおける有害で安全なクエリの潜伏表現(埋め込み)は、通常線形分離性を示す。
この観測により,埋め込み空間分離(ES2)という表現レベルの微調整手法を提案する。
- 参考スコア(独自算出の注目度): 24.821172423424866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have achieved impressive capabilities, yet ensuring their safety against harmful prompts remains a critical challenge. Recent work has revealed that the latent representations (embeddings) of harmful and safe queries in LLMs typically exhibit linear separability, a property that has been exploited to construct attacks by perturbing the embeddings of harmful queries towards the safe subspace. Motivated by this observation, we propose a representation-level fine-tuning approach, named Embedding Space Separation (ES2), which improves LLM safety by explicitly enlarging the distance between harmful and safe representations in the embedding space. To prevent degradation of model's general capabilities, we introduce a Kullback-Leibler (KL) divergence regularization term into the loss function, which constrains the logits of the fine-tuned model to align with those of the original base model on harmless inputs. We evaluate our method on several open-source LLMs using standard safety benchmarks. Extensive experimental results demonstrate that our approach substantially improves model safety while maintaining comparable general capabilities.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な機能を達成したが、有害なプロンプトに対する安全性を保証することは、依然として重要な課題である。
近年の研究では、LLMにおける有害かつ安全なクエリの潜伏表現(埋め込み)は、一般に線形分離性を示すことが判明している。
本研究では, 組込み空間における有害な表現と安全な表現との距離を明示的に拡大することにより, LLMの安全性を向上する, 組込み空間分離 (ES2) という表現レベルの微調整手法を提案する。
モデル全体の機能低下を防止するため,KL(Kullback-Leibler)分散正規化項を損失関数に導入する。
標準安全ベンチマークを用いて,複数のオープンソースLCMに対して本手法の評価を行った。
大規模な実験結果から,本手法はモデル安全性を著しく向上すると同時に,同等の汎用能力を維持できることを示した。
関連論文リスト
- Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection [21.411964269762432]
本稿では,LVLM(Large Vision-Language Models)における安全でないチャネルの診断と修復のための包括的フレームワークを提案する。
まず、安全でない行動に因果的に責任を負うニューロンや層を特定するために、因果媒介分析を行う。
本稿では、視覚的・テキスト的両モードの汎用安全部分空間を学習するデュアルモーダル・セーフティ・サブスペース・プロジェクション法を提案する。
論文 参考訳(メタデータ) (2026-03-28T11:31:16Z) - Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation [23.989016366701232]
大きな言語モデルには安全性の脆弱性がある。
モデル安全性の改善は、しばしば過度に拒絶されるコストがかかる。
LLMの安全性表現を介入することで過度な拒絶を緩和するMOSRを提案する。
論文 参考訳(メタデータ) (2025-11-24T11:38:53Z) - ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。
機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。
本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文 参考訳(メタデータ) (2025-06-02T15:17:38Z) - Learning Safety Constraints for Large Language Models [41.95596134688853]
大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。
モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。
我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-30T10:30:24Z) - On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。
我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。
我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。