論文の概要: LLM Safety Alignment is Divergence Estimation in Disguise
- arxiv url: http://arxiv.org/abs/2502.00657v1
- Date: Sun, 02 Feb 2025 04:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.066692
- Title: LLM Safety Alignment is Divergence Estimation in Disguise
- Title(参考訳): LLMの安全性アライメントはディフューズにおけるダイバージェンス推定である
- Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing,
- Abstract要約: その結果、アライメント法は、アライメント(優先または安全)とアンアライメント(非優先または有害)の間の分散推定器として機能することを示した。
理論的結果から着想を得た結果,いくつかのアライメント法は分離の点で他の方法よりも優れていることがわかった。
我々は、安全アライメントを高めるために、優先データセットよりもコンプライアンス拒否データセットを提唱する。
- 参考スコア(独自算出の注目度): 18.31821426379304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a theoretical framework demonstrating that popular Large Language Model (LLM) alignment methods, including Reinforcement Learning from Human Feedback (RLHF) and alternatives, fundamentally function as divergence estimators between aligned (preferred or safe) and unaligned (less-preferred or harmful) distributions. This explains the separation phenomenon between safe and harmful prompts in the model hidden representation after alignment. Inspired by the theoretical results, we identify that some alignment methods are better than others in terms of separation and, introduce a new method, KLDO, and further demonstrate the implication of our theories. We advocate for compliance-refusal datasets over preference datasets to enhance safety alignment, supported by both theoretical reasoning and empirical evidence. Additionally, to quantify safety separation, we leverage a distance metric in the representation space and statistically validate its efficacy as a statistical significant indicator of LLM resilience against jailbreak attacks.
- Abstract(参考訳): 本稿では,人間フィードバックからの強化学習(RLHF)や代替手法を含む,一般的なLarge Language Model(LLM)アライメント手法が,アライメント(優先または安全)とアンアライメント(非推奨または有害)の分散推定器として根本的に機能することを示す理論的枠組みを提案する。
これは、アライメント後のモデル隠れ表現において、安全なプロンプトと有害なプロンプトの分離現象を説明する。
理論的な結果に触発されて,いくつかのアライメント法は分離の点で他の方法よりも優れていると認識し,新しい手法KLDOを導入し,我々の理論がもたらす影響をさらに実証する。
我々は、理論的推論と経験的証拠の両方によって支持され、安全アライメントを高めるために、嗜好データセットよりもコンプライアンス拒否データセットを提唱する。
さらに, 安全分離の定量化のために, 表現空間における距離測定値を活用し, 脱獄攻撃に対するLDMレジリエンスの統計的有意な指標としての有効性を統計的に検証する。
関連論文リスト
- Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文 参考訳(メタデータ) (2025-04-07T13:20:17Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。
我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。
我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach [33.463823493423554]
マルチモーダルな大言語モデル(MLLM)は期待できる能力を示しているが、分散シフトの下では苦労している。
MLLMの安全性と信頼性を確保するためには,MLLMのリスクを特徴づけ定量化できる形式的枠組みの確立が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-01T22:06:56Z) - HNCI: High-Dimensional Network Causal Inference [4.024850952459758]
本稿では, 平均的直接治療効果に対する有効信頼区間と, 干渉効果に対する有効信頼区間とを両立する高次元ネットワーク因果推論(HNCI)を提案する。
論文 参考訳(メタデータ) (2024-12-24T17:41:41Z) - On the Role of Surrogates in Conformal Inference of Individual Causal Effects [0.0]
UnderlineEfficient IunderlineNdividual UnderlineCausal UnderlineEffects (SCIENCE) に対する UnderlineSurrogate-assisted Underline Conformal Underline Inference を導入する。
SCIENCEは、個々の治療効果(ITE)に対してより効率的な予測間隔を構築するために設計されたフレームワークである。
これは第3相であるModerna COVE COVID-19ワクチンの臨床試験に適用される。
論文 参考訳(メタデータ) (2024-12-16T21:36:11Z) - Information-Geometric Barycenters for Bayesian Federated Learning [9.670266892454945]
フェデレートラーニング(FL)は、局所的に訓練されたモデルの平均化を通じてコンセンサスを達成するために用いられる。
効果はあるが、このアプローチは、モデル空間が分布空間の構造を持つベイズ予想とうまく一致しないかもしれない。
非依存的な設定におけるフェデレーション平均化の収束特性を保持するアルゴリズムであるBA-FLBを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:47:05Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。