論文の概要: Generalization Limits of Reinforcement Learning Alignment
- arxiv url: http://arxiv.org/abs/2604.02652v1
- Date: Fri, 03 Apr 2026 02:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.285698
- Title: Generalization Limits of Reinforcement Learning Alignment
- Title(参考訳): 強化学習アライメントの一般化限界
- Authors: Haruhi Shida, Koo Imai, Keigo Kansa,
- Abstract要約: 強化学習に基づくトレーニングは、新しい能力を得るのではなく、単に既存の能力の利用可能性を再分配するだけである。
このアプローチは、命令階層のメンテナンスプロセスを飽和させるために、複数のアタックテクニック(それぞれ個別に防御されている)を組み合わせる。
攻撃成功率 (ASR) は, 個々の手法で14.3%から71.4%に上昇した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety of large language models (LLMs) relies on alignment techniques such as reinforcement learning from human feedback (RLHF). However, recent theoretical analyses suggest that reinforcement learning-based training does not acquire new capabilities but merely redistributes the utilization probabilities of existing ones. In this study, we propose ``compound jailbreaks'' targeting OpenAI gpt-oss-20b, which exploit the generalization failures of alignment. This approach combines multiple attack techniques -- each individually defended against -- to saturate the instruction hierarchy maintenance process. Our evaluation shows that the attack success rate (ASR) increased from 14.3\% with individual methods to 71.4\% with the combined approach. These results provide empirical evidence for the hypothesis that safety training does not generalize as broadly as model capabilities, highlighting the need for multifaceted safety evaluations using compound attack scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性は、人間からのフィードバック(RLHF)からの強化学習のようなアライメント技術に依存している。
しかし、近年の理論的分析から、強化学習に基づく訓練は新たな能力を得るのではなく、単に既存の能力の利用可能性を再分配するだけであることを示唆している。
本研究では,OpenAI gpt-oss-20bを対象とした'Compound jailbreaks'を提案する。
このアプローチは、命令階層のメンテナンスプロセスを飽和させるために、複数のアタックテクニック(それぞれ個別に防御されている)を組み合わせる。
攻撃成功率 (ASR) は, 個々の手法で14.3\%から71.4\%に上昇した。
これらの結果は,複合攻撃シナリオを用いた多面的安全性評価の必要性を浮き彫りにして,安全訓練がモデル能力ほど広く一般化しないという仮説の実証的証拠を提供する。
関連論文リスト
- Rethinking Deep Alignment Through The Lens Of Incomplete Learning [14.306119791052575]
自己回帰訓練中の位置依存的勾配弱化は信号減衰を引き起こし,不完全安全性学習につながることを示す。
不完全な安全学習の計算指標として,基本条件付きトークンを導入する。
Llama と Qwen モデルファミリ間の実験的評価により, 対向ロバスト性は劇的に向上した。
論文 参考訳(メタデータ) (2025-11-15T10:53:03Z) - Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。
本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。
トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。
このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2025-10-15T09:47:54Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Understanding and Improving Ensemble Adversarial Defense [4.504026914523449]
我々は、アンサンブルの防御を理解するための新しい誤り理論を開発した。
我々は,対話的グローバル対人訓練(iGAT)という,アンサンブル対人防御を改善する効果的なアプローチを提案する。
iGATは、ホワイトボックスとブラックボックスの両方の攻撃下で、CIFAR10とCIFAR100データセットを使用して評価された最大17%のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2023-10-27T20:43:29Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。