論文の概要: LLM Safety Alignment is Divergence Estimation in Disguise
- arxiv url: http://arxiv.org/abs/2502.00657v2
- Date: Sun, 01 Jun 2025 21:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.035234
- Title: LLM Safety Alignment is Divergence Estimation in Disguise
- Title(参考訳): LLMの安全性アライメントはディフューズにおけるダイバージェンス推定である
- Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing,
- Abstract要約: この視点は、アライメント後の安全なプロンプトと有害なプロンプトの間の潜伏空間における分離の出現を説明する。
標準の嗜好に基づくデータセットではなく、コンプライアンス拒否データセットを使用することで、分離がより強くなり、安全性の整合性が向上することを示す。
- 参考スコア(独自算出の注目度): 18.31821426379304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a theoretical framework showing that popular LLM alignment methods, including RLHF and its variants, can be understood as divergence estimators between aligned (safe or preferred) and unaligned (harmful or less preferred) distributions. This perspective explains the emergence of separation in the latent space between safe and harmful prompts after alignment. As an application of our general divergence framework, we propose KLDO, a novel KL divergence-based alignment method, and empirically validate its effectiveness. We further show that using compliance-refusal datasets, rather than standard preference-based datasets, leads to stronger separation and improved safety alignment. Finally, to quantify the separation effect, we propose a distance-based metric in the prompt representation space, which also acts as a statistically significant indicator for model safety.
- Abstract(参考訳): 本稿では、RLHFとその変種を含む一般的なLCMアライメント手法を、アライメント(安全または好ましくない)とアンアライメント(有害または好ましくない)の分散推定器として理解することができることを示す理論的枠組みを提案する。
この視点は、アライメント後の安全なプロンプトと有害なプロンプトの間の潜伏空間における分離の出現を説明する。
一般分散フレームワークの応用として、新しいKL分散に基づくアライメント手法であるKLDOを提案し、その有効性を実証的に検証する。
さらに、標準の嗜好に基づくデータセットではなく、コンプライアンス拒否データセットを使用することで、分離がより強くなり、安全性の整合性が向上することを示す。
最後に、分離効果の定量化のために、モデル安全性の統計的に重要な指標として機能するプロンプト表現空間における距離ベース計量を提案する。
関連論文リスト
- Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文 参考訳(メタデータ) (2025-04-07T13:20:17Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach [33.463823493423554]
マルチモーダルな大言語モデル(MLLM)は期待できる能力を示しているが、分散シフトの下では苦労している。
MLLMの安全性と信頼性を確保するためには,MLLMのリスクを特徴づけ定量化できる形式的枠組みの確立が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-01T22:06:56Z) - HNCI: High-Dimensional Network Causal Inference [4.024850952459758]
本稿では, 平均的直接治療効果に対する有効信頼区間と, 干渉効果に対する有効信頼区間とを両立する高次元ネットワーク因果推論(HNCI)を提案する。
論文 参考訳(メタデータ) (2024-12-24T17:41:41Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。