論文の概要: Latent Adversarial Training Improves the Representation of Refusal
- arxiv url: http://arxiv.org/abs/2504.18872v1
- Date: Sat, 26 Apr 2025 09:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.028491
- Title: Latent Adversarial Training Improves the Representation of Refusal
- Title(参考訳): 潜在対立訓練は拒絶の表現を改善する
- Authors: Alexandra Abbas, Nora Petrova, Helios Ael Lyons, Natalia Perez-Campanero,
- Abstract要約: 本稿では,LAT(Latent Adversarial Training)がモデルの潜在空間における拒絶行動をどのように再構成するかを示す。
LATは拒絶表現を著しく変更し、最初の2つのSVDコンポーネントに集中させる。
以上の結果から,LATのトレーニング摂動は拒絶行動のより包括的表現を可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that language models' refusal behavior is primarily encoded in a single direction in their latent space, making it vulnerable to targeted attacks. Although Latent Adversarial Training (LAT) attempts to improve robustness by introducing noise during training, a key question remains: How does this noise-based training affect the underlying representation of refusal behavior? Understanding this encoding is crucial for evaluating LAT's effectiveness and limitations, just as the discovery of linear refusal directions revealed vulnerabilities in traditional supervised safety fine-tuning (SSFT). Through the analysis of Llama 2 7B, we examine how LAT reorganizes the refusal behavior in the model's latent space compared to SSFT and embedding space adversarial training (AT). By computing activation differences between harmful and harmless instruction pairs and applying Singular Value Decomposition (SVD), we find that LAT significantly alters the refusal representation, concentrating it in the first two SVD components which explain approximately 75 percent of the activation differences variance - significantly higher than in reference models. This concentrated representation leads to more effective and transferable refusal vectors for ablation attacks: LAT models show improved robustness when attacked with vectors from reference models but become more vulnerable to self-generated vectors compared to SSFT and AT. Our findings suggest that LAT's training perturbations enable a more comprehensive representation of refusal behavior, highlighting both its potential strengths and vulnerabilities for improving model safety.
- Abstract(参考訳): 最近の研究により、言語モデルの拒絶行動は、主に潜伏空間の単一方向に符号化され、標的攻撃に対して脆弱であることが示されている。
Latent Adversarial Training (LAT)は、トレーニング中にノイズを導入することで頑健さを向上しようとするが、重要な疑問が残る。
このエンコーディングを理解することは、従来の監視された安全微調整(SSFT)の脆弱性が発見されたように、LATの有効性と限界を評価するために重要である。
Llama 2 7Bの分析を通じて, LATはSSFTと組込み空間対向訓練(AT)と比較して, モデルの潜伏空間における拒絶行動を再編成する方法について検討した。
有害な命令対と無害な命令対のアクティベーション差を計算し、Singular Value Decomposition (SVD)を適用することにより、LATは拒絶表現を著しく変更し、アクティベーション差の約75%を説明できる最初の2つのSVDコンポーネントに集中することがわかった。
LATモデルは、参照モデルからベクターを攻撃したときのロバスト性を改善するが、SSFTやATと比較して自己生成ベクターに対して脆弱になる。
LATのトレーニング摂動は、モデル安全性を改善するための潜在的な強みと脆弱性の両方を強調し、より包括的な拒絶行動の表現を可能にすることを示唆している。
関連論文リスト
- Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Mitigating Adversarial Perturbations for Deep Reinforcement Learning via Vector Quantization [18.56608399174564]
優れた強化学習(RL)エージェントは、展開中に敵の摂動に対してレジリエンスを欠いていることが多い。
これは、現実世界にデプロイする前に堅牢なエージェントを構築することの重要性を強調している。
本研究では,RLの入力変換に基づくディフェンスについて検討する。
論文 参考訳(メタデータ) (2024-10-04T12:41:54Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - PEARL: Preprocessing Enhanced Adversarial Robust Learning of Image
Deraining for Semantic Segmentation [42.911517493220664]
本稿では,異なる種類の分解因子を同時に扱うことにより,意味的セグメンテーションタスクの堅牢性を向上させるための最初の試みを示す。
本手法は,画像デラインモデルにセグメンテーションモデルのロバスト性を移すことにより,雨害と逆流の両面を効果的に処理する。
PEARLフレームワークのトレーニングに先立って,補助鏡攻撃(AMA)を設計し,肯定的な情報を導入する。
論文 参考訳(メタデータ) (2023-05-25T04:44:17Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Adversarial Momentum-Contrastive Pre-Training [20.336258934272102]
adversarial self-supervised pre-trainingは、データ拡張とadversarial perturbationの両方の下で不変表現を抽出するのに役立つ。
本稿では,新しい対向運動量比較(AMOC)事前学習手法を提案する。
既存の自己監督型プリトレーニングアプローチと比較して、AMOCはより小さなバッチサイズとより少ないトレーニングエポックを使用できますが、より堅牢な機能を学びます。
論文 参考訳(メタデータ) (2020-12-24T07:49:10Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。