論文の概要: Adversarial Preference Learning for Robust LLM Alignment
- arxiv url: http://arxiv.org/abs/2505.24369v1
- Date: Fri, 30 May 2025 09:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.86542
- Title: Adversarial Preference Learning for Robust LLM Alignment
- Title(参考訳): ロバストLLMアライメントの逆選好学習
- Authors: Yuanfu Wang, Pengyu Wang, Chenyang Xi, Bo Tang, Junyi Zhu, Wenqiang Wei, Chen Chen, Chao Yang, Jingfeng Zhang, Chaochao Lu, Yijun Niu, Keming Mao, Zhiyu Li, Feiyu Xiong, Jie Hu, Mingchuan Yang,
- Abstract要約: 逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
- 参考スコア(独自算出の注目度): 24.217309343426297
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern language models often rely on Reinforcement Learning from Human Feedback (RLHF) to encourage safe behaviors. However, they remain vulnerable to adversarial attacks due to three key limitations: (1) the inefficiency and high cost of human annotation, (2) the vast diversity of potential adversarial attacks, and (3) the risk of feedback bias and reward hacking. To address these challenges, we introduce Adversarial Preference Learning (APL), an iterative adversarial training method incorporating three key innovations. First, a direct harmfulness metric based on the model's intrinsic preference probabilities, eliminating reliance on external assessment. Second, a conditional generative attacker that synthesizes input-specific adversarial variations. Third, an iterative framework with automated closed-loop feedback, enabling continuous adaptation through vulnerability discovery and mitigation. Experiments on Mistral-7B-Instruct-v0.3 demonstrate that APL significantly enhances robustness, achieving 83.33% harmlessness win rate over the base model (evaluated by GPT-4o), reducing harmful outputs from 5.88% to 0.43% (measured by LLaMA-Guard), and lowering attack success rate by up to 65% according to HarmBench. Notably, APL maintains competitive utility, with an MT-Bench score of 6.59 (comparable to the baseline 6.78) and an LC-WinRate of 46.52% against the base model.
- Abstract(参考訳): 現代の言語モデルは、安全行動を促進するために、人間からのフィードバックからの強化学習(RLHF)に依存することが多い。
しかし,1) 人的アノテーションの非効率性と高コスト,(2) 潜在的攻撃の多様性,(3) フィードバックバイアスや報酬ハッキングのリスク,という3つの重要な制約により,敵対的攻撃に対して脆弱な状態が保たれている。
これらの課題に対処するために,3つの重要なイノベーションを取り入れた反復的対人訓練手法であるAdversarial Preference Learning (APL)を導入する。
まず、モデル固有の嗜好確率に基づく直接的な有害度測定を行い、外部評価への依存を排除した。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
第三に、自動クローズドループフィードバックを備えた反復的なフレームワークで、脆弱性発見と緩和を通じて継続的適応を可能にする。
Mistral-7B-Instruct-v0.3の実験では、APLはロバスト性を大幅に向上し、ベースモデルよりも83.33%の無害勝利率(GPT-4oで評価)、有害な出力を5.88%から0.43%(LLaMA-Guardで測定)、攻撃成功率を最大65%低下させることが示されている。
APLは競争力を維持しており、MT-Benchスコアは6.59(ベースライン6.78と同等)、LC-WinRateは46.52%である。
関連論文リスト
- Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Stable and Efficient Adversarial Training through Local Linearization [0.5076419064097734]
カタストロフィックオーバーフィッティングと呼ばれる現象が観察されており、これは単一段階の防御でよく見られる。
本稿では, 壊滅的過度適合を緩和する新しい方法である, 安定かつ効率的な対人訓練(SEAT)を提案する。
PGD-50攻撃によるCIFAR-10の精度は51%, PGD-50攻撃下では半径8/255$のl_infty$摂動が可能である。
論文 参考訳(メタデータ) (2022-10-11T11:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。