論文の概要: Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning
- arxiv url: http://arxiv.org/abs/2508.20697v1
- Date: Thu, 28 Aug 2025 12:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.371671
- Title: Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning
- Title(参考訳): Token Buncher: 有害な強化学習からLLMを遮蔽する
- Authors: Weitao Feng, Lixu Wang, Tianyi Wei, Jie Zhang, Chongyang Gao, Sinong Zhan, Peizhuo Lv, Wei Dong,
- Abstract要約: 強化学習により、敵はより効果的に安全アライメントを破り、高度な有害なタスク支援を促進することができる。
本稿では,RLをベースとした有害な微調整を対象とする最初の効果的な防御法であるTokenBuncherを提案する。
本稿では,TokenBuncherが有害なRL微調整を効果的に軽減し,良質なタスクユーティリティと微調整性を保っていることを示す。
- 参考スコア(独自算出の注目度): 25.19587561988995
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) continue to grow in capability, so do the risks of harmful misuse through fine-tuning. While most prior studies assume that attackers rely on supervised fine-tuning (SFT) for such misuse, we systematically demonstrate that reinforcement learning (RL) enables adversaries to more effectively break safety alignment and facilitate advanced harmful task assistance, under matched computational budgets. To counter this emerging threat, we propose TokenBuncher, the first effective defense specifically targeting RL-based harmful fine-tuning. TokenBuncher suppresses the foundation on which RL relies: model response uncertainty. By constraining uncertainty, RL-based fine-tuning can no longer exploit distinct reward signals to drive the model toward harmful behaviors. We realize this defense through entropy-as-reward RL and a Token Noiser mechanism designed to prevent the escalation of expert-domain harmful capabilities. Extensive experiments across multiple models and RL algorithms show that TokenBuncher robustly mitigates harmful RL fine-tuning while preserving benign task utility and finetunability. Our results highlight that RL-based harmful fine-tuning poses a greater systemic risk than SFT, and that TokenBuncher provides an effective and general defense.
- Abstract(参考訳): 大規模言語モデル(LLM)が機能的に成長し続けるにつれて、微調整による有害な誤用のリスクも高まる。
多くの先行研究では、攻撃者はそのような誤用に対して教師付き微調整(SFT)を頼っていると仮定しているが、我々は、強化学習(RL)が、一致した計算予算の下で、敵がより効果的に安全アライメントを破り、高度な有害なタスク支援を促進することができることを体系的に証明している。
この脅威に対処するため、我々は、RLをベースとした有害な微調整を対象とする最初の効果的な防御であるTokenBuncherを提案する。
TokenBuncherは、RLが依存する基盤、すなわちモデル応答の不確実性を抑制する。
不確実性を抑えることで、RLベースの微調整は、有害な行動に向けてモデルを駆動するために、異なる報酬信号を利用することはできない。
本研究では, エキスパートドメインの有害な機能のエスカレーションを防止するために, エントロピー・アズ・ア・リワードRLとTokenノイズ機構を用いて, この防御を実現する。
複数のモデルとRLアルゴリズムにわたる大規模な実験により、TokenBuncherは有害なRL微調整を確実に軽減し、良質なタスクユーティリティと微調整性を保っている。
以上の結果から,RLをベースとした有害な微調整は,SFTよりもシステム的リスクが高く,TokenBuncherが効果的で汎用的な防御を提供することが明らかとなった。
関連論文リスト
- TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning [38.79063331759597]
TooBadRLは、DRLバックドアトリガーを3つの臨界軸(時間、空間、大きさ)に沿って体系的に最適化するフレームワークである。
TooBadRLは,通常のタスク性能の低下を最小限に抑えつつ,攻撃成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-11T09:50:17Z) - Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:18:48Z) - xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。