論文の概要: HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment
- arxiv url: http://arxiv.org/abs/2510.15499v1
- Date: Fri, 17 Oct 2025 10:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.570524
- Title: HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment
- Title(参考訳): HarmRLVR: 有害なLLMアライメントのための検証可能なリワード
- Authors: Yuexiao Liu, Lijun Li, Xingjun Wang, Jing Shao,
- Abstract要約: HarmRLVRは、RLVRのアライメント可逆性リスクに関する最初の体系的な研究である。
安全アライメントは、応答のない64個の有害なプロンプトでGRPOを用いて迅速に逆転できることを示す。
この結果から,RLVRは有害なアライメントのために効率的に利用でき,オープンソースのモデル安全性に深刻な脅威をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 30.715469819998148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have gained significant attention due to their objective and verifiable reward signals, demonstrating strong performance in reasoning and code generation tasks. However, the potential safety risks associated with RLVR remain underexplored. This paper presents HarmRLVR, the first systematic investigation into the alignment reversibility risk of RLVR. We show that safety alignment can be rapidly reversed using GRPO with merely 64 harmful prompts without responses, causing models to readily comply with harmful instructions. Across five models from Llama, Qwen, and DeepSeek, we empirically demonstrate that RLVR-based attacks elevate the average harmfulness score to 4.94 with an attack success rate of 96.01\%, significantly outperforming harmful fine-tuning while preserving general capabilities. Our findings reveal that RLVR can be efficiently exploited for harmful alignment, posing serious threats to open-source model safety. Please see our code at https://github.com/lyxx2535/HarmRLVR.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、その目的と検証可能な報酬信号によって大きな注目を集めており、推論やコード生成タスクにおける強力なパフォーマンスを示している。
しかし、RLVRに関連する潜在的な安全性リスクは未調査のままである。
本稿では、RLVRのアライメント可逆性リスクに関する最初の体系的な研究であるHarmRLVRについて述べる。
安全アライメントは、応答無しに64個の有害なプロンプトしか持たないGRPOを用いて迅速に逆転できることを示し、モデルが有害な指示に容易に準拠することを示した。
Llama、Qwen、DeepSeekの5つのモデルで、RLVRベースの攻撃は、攻撃成功率96.01\%で平均有害度スコアが4.94に上昇し、一般的な能力を保ちながら有害な微調整を著しく上回っていることを実証的に実証した。
この結果から,RLVRは有害なアライメントのために効率的に利用でき,オープンソースのモデル安全性に深刻な脅威をもたらすことが明らかとなった。
コードについてはhttps://github.com/lyxx2535/HarmRLVRを参照してください。
関連論文リスト
- CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning [25.19587561988995]
強化学習により、敵はより効果的に安全アライメントを破り、高度な有害なタスク支援を促進することができる。
本稿では,RLをベースとした有害な微調整を対象とする最初の効果的な防御法であるTokenBuncherを提案する。
本稿では,TokenBuncherが有害なRL微調整を効果的に軽減し,良質なタスクユーティリティと微調整性を保っていることを示す。
論文 参考訳(メタデータ) (2025-08-28T12:07:11Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Spurious Rewards: Rethinking Training Signals in RLVR [130.3484456088909]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。
コード推論 -- 実際のコード実行なしにコードで考える -- は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (2025-06-12T17:49:55Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。