論文の概要: Capability-Oriented Training Induced Alignment Risk
- arxiv url: http://arxiv.org/abs/2602.12124v1
- Date: Thu, 12 Feb 2026 16:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.919078
- Title: Capability-Oriented Training Induced Alignment Risk
- Title(参考訳): 能力指向トレーニングによるアライメントリスク
- Authors: Yujun Zhou, Yue Huang, Han Bao, Kehan Guo, Zhenwen Liang, Pin-Yu Chen, Tian Gao, Werner Geyer, Nuno Moniz, Nitesh V Chawla, Xiangliang Zhang,
- Abstract要約: 我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
- 参考スコア(独自算出の注目度): 101.37328448441208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most AI alignment research focuses on preventing models from generating explicitly harmful content, a more subtle risk is emerging: capability-oriented training induced exploitation. We investigate whether language models, when trained with reinforcement learning (RL) in environments with implicit loopholes, will spontaneously learn to exploit these flaws to maximize their reward, even without any malicious intent in their training. To test this, we design a suite of four diverse "vulnerability games", each presenting a unique, exploitable flaw related to context-conditional compliance, proxy metrics, reward tampering, and self-evaluation. Our experiments show that models consistently learn to exploit these vulnerabilities, discovering opportunistic strategies that significantly increase their reward at the expense of task correctness or safety. More critically, we find that these exploitative strategies are not narrow "tricks" but generalizable skills; they can be transferred to new tasks and even "distilled" from a capable teacher model to other student models through data alone. Our findings reveal that capability-oriented training induced risks pose a fundamental challenge to current alignment approaches, suggesting that future AI safety work must extend beyond content moderation to rigorously auditing and securing the training environments and reward mechanisms themselves. Code is available at https://github.com/YujunZhou/Capability_Oriented_Alignment_Risk.
- Abstract(参考訳): ほとんどのAIアライメント研究は、モデルが明らかに有害なコンテンツを生成するのを防ぐことに重点を置いているが、より微妙なリスクが生まれている。
我々は、暗黙の抜け穴のある環境で強化学習(RL)で訓練された言語モデルが、トレーニングにおいて悪意のある意図がなくても、これらの欠陥を利用して報酬を最大化するかどうかを自発的に学習するかどうかを検討する。
これをテストするために、我々は4つの多様な「脆弱性ゲーム」のスイートを設計し、それぞれがコンテキスト条件コンプライアンス、プロキシメトリクス、報酬の改ざん、自己評価に関連するユニークで悪用可能な欠陥を提示する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
さらに重要なのは、これらの搾取戦略は狭義の「トリック」ではなく、一般化可能なスキルであり、新しいタスクに移行したり、データだけで有能な教師モデルから他の学生モデルに「蒸留」したりできるということです。
今後のAIの安全性は、コンテンツモデレーションを超えて、トレーニング環境や報酬メカニズム自体の厳格な監査と確保を行なわなければならないことを示唆している。
コードはhttps://github.com/YujunZhou/Capability_Oriented_Alignment_Riskで公開されている。
関連論文リスト
- The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment [148.80266237240713]
暗黙のトレーニング時間安全リスクは、モデルの内部インセンティブとコンテキスト背景情報によって引き起こされる。
5つのリスクレベル、10つのきめ細かいリスクカテゴリ、3つのインセンティブを持つ分類を導入した。
我々の結果は、過度に見過ごされているが、訓練における緊急の安全上の課題を特定します。
論文 参考訳(メタデータ) (2026-02-04T04:23:58Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Soft Actor-Critic with Inhibitory Networks for Faster Retraining [0.24466725954625884]
事前訓練されたモデルの再利用は、深い強化学習において重要である。
目的や制約が以前学んだスキルと矛盾している場合、新しいスキルをどうやって獲得するかは不明だ。
本稿では, 阻止ネットワークを用いて, 独立かつ適応的な状態値評価を可能にする手法を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。