論文の概要: LLM Safety Alignment is Divergence Estimation in Disguise
- arxiv url: http://arxiv.org/abs/2502.00657v1
- Date: Sun, 02 Feb 2025 04:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:33.473648
- Title: LLM Safety Alignment is Divergence Estimation in Disguise
- Title(参考訳): LLMの安全性アライメントはディフューズにおけるダイバージェンス推定である
- Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing,
- Abstract要約: その結果、アライメント法は、アライメント(優先または安全)とアンアライメント(非優先または有害)の間の分散推定器として機能することを示した。
理論的結果から着想を得た結果,いくつかのアライメント法は分離の点で他の方法よりも優れていることがわかった。
我々は、安全アライメントを高めるために、優先データセットよりもコンプライアンス拒否データセットを提唱する。
- 参考スコア(独自算出の注目度): 18.31821426379304
- License:
- Abstract: We propose a theoretical framework demonstrating that popular Large Language Model (LLM) alignment methods, including Reinforcement Learning from Human Feedback (RLHF) and alternatives, fundamentally function as divergence estimators between aligned (preferred or safe) and unaligned (less-preferred or harmful) distributions. This explains the separation phenomenon between safe and harmful prompts in the model hidden representation after alignment. Inspired by the theoretical results, we identify that some alignment methods are better than others in terms of separation and, introduce a new method, KLDO, and further demonstrate the implication of our theories. We advocate for compliance-refusal datasets over preference datasets to enhance safety alignment, supported by both theoretical reasoning and empirical evidence. Additionally, to quantify safety separation, we leverage a distance metric in the representation space and statistically validate its efficacy as a statistical significant indicator of LLM resilience against jailbreak attacks.
- Abstract(参考訳): 本稿では,人間フィードバックからの強化学習(RLHF)や代替手法を含む,一般的なLarge Language Model(LLM)アライメント手法が,アライメント(優先または安全)とアンアライメント(非推奨または有害)の分散推定器として根本的に機能することを示す理論的枠組みを提案する。
これは、アライメント後のモデル隠れ表現において、安全なプロンプトと有害なプロンプトの分離現象を説明する。
理論的な結果に触発されて,いくつかのアライメント法は分離の点で他の方法よりも優れていると認識し,新しい手法KLDOを導入し,我々の理論がもたらす影響をさらに実証する。
我々は、理論的推論と経験的証拠の両方によって支持され、安全アライメントを高めるために、嗜好データセットよりもコンプライアンス拒否データセットを提唱する。
さらに, 安全分離の定量化のために, 表現空間における距離測定値を活用し, 脱獄攻撃に対するLDMレジリエンスの統計的有意な指標としての有効性を統計的に検証する。
関連論文リスト
- Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach [33.463823493423554]
マルチモーダルな大言語モデル(MLLM)は期待できる能力を示しているが、分散シフトの下では苦労している。
MLLMの安全性と信頼性を確保するためには,MLLMのリスクを特徴づけ定量化できる形式的枠組みの確立が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-01T22:06:56Z) - HNCI: High-Dimensional Network Causal Inference [4.024850952459758]
本稿では, 平均的直接治療効果に対する有効信頼区間と, 干渉効果に対する有効信頼区間とを両立する高次元ネットワーク因果推論(HNCI)を提案する。
論文 参考訳(メタデータ) (2024-12-24T17:41:41Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。