Fugu-MT 論文翻訳(概要): LLM Safety Alignment is Divergence Estimation in Disguise

論文の概要: LLM Safety Alignment is Divergence Estimation in Disguise

arxiv url: http://arxiv.org/abs/2502.00657v1
Date: Sun, 02 Feb 2025 04:09:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.066692
Title: LLM Safety Alignment is Divergence Estimation in Disguise
Title（参考訳）: LLMの安全性アライメントはディフューズにおけるダイバージェンス推定である
Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing,
Abstract要約: その結果、アライメント法は、アライメント(優先または安全)とアンアライメント(非優先または有害)の間の分散推定器として機能することを示した。理論的結果から着想を得た結果,いくつかのアライメント法は分離の点で他の方法よりも優れていることがわかった。我々は、安全アライメントを高めるために、優先データセットよりもコンプライアンス拒否データセットを提唱する。
参考スコア（独自算出の注目度）: 18.31821426379304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a theoretical framework demonstrating that popular Large Language Model (LLM) alignment methods, including Reinforcement Learning from Human Feedback (RLHF) and alternatives, fundamentally function as divergence estimators between aligned (preferred or safe) and unaligned (less-preferred or harmful) distributions. This explains the separation phenomenon between safe and harmful prompts in the model hidden representation after alignment. Inspired by the theoretical results, we identify that some alignment methods are better than others in terms of separation and, introduce a new method, KLDO, and further demonstrate the implication of our theories. We advocate for compliance-refusal datasets over preference datasets to enhance safety alignment, supported by both theoretical reasoning and empirical evidence. Additionally, to quantify safety separation, we leverage a distance metric in the representation space and statistically validate its efficacy as a statistical significant indicator of LLM resilience against jailbreak attacks.
Abstract（参考訳）: 本稿では,人間フィードバックからの強化学習(RLHF)や代替手法を含む,一般的なLarge Language Model(LLM)アライメント手法が,アライメント(優先または安全)とアンアライメント(非推奨または有害)の分散推定器として根本的に機能することを示す理論的枠組みを提案する。これは、アライメント後のモデル隠れ表現において、安全なプロンプトと有害なプロンプトの分離現象を説明する。理論的な結果に触発されて,いくつかのアライメント法は分離の点で他の方法よりも優れていると認識し,新しい手法KLDOを導入し,我々の理論がもたらす影響をさらに実証する。我々は、理論的推論と経験的証拠の両方によって支持され、安全アライメントを高めるために、嗜好データセットよりもコンプライアンス拒否データセットを提唱する。さらに, 安全分離の定量化のために, 表現空間における距離測定値を活用し, 脱獄攻撃に対するLDMレジリエンスの統計的有意な指標としての有効性を統計的に検証する。

関連論文リスト

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文参考訳（メタデータ） (2025-04-07T13:20:17Z)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-03-24T20:41:57Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach [33.463823493423554]
マルチモーダルな大言語モデル(MLLM)は期待できる能力を示しているが、分散シフトの下では苦労している。 MLLMの安全性と信頼性を確保するためには,MLLMのリスクを特徴づけ定量化できる形式的枠組みの確立が必要であると論じる。
論文参考訳（メタデータ） (2025-02-01T22:06:56Z)
HNCI: High-Dimensional Network Causal Inference [4.024850952459758]
本稿では, 平均的直接治療効果に対する有効信頼区間と, 干渉効果に対する有効信頼区間とを両立する高次元ネットワーク因果推論(HNCI)を提案する。
論文参考訳（メタデータ） (2024-12-24T17:41:41Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文参考訳（メタデータ） (2022-05-23T17:59:32Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。