論文の概要: The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment
- arxiv url: http://arxiv.org/abs/2602.04196v1
- Date: Wed, 04 Feb 2026 04:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.365521
- Title: The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment
- Title(参考訳): 不足する部分: デプロイ以上のトレーニング時間の過度な安全リスクを解消する
- Authors: Zhexin Zhang, Yida Lu, Junfeng Fang, Junxiao Yang, Shiyao Cui, Hao Zhou, Fandong Meng, Jie Zhou, Hongning Wang, Minlie Huang, Tat-Seng Chua,
- Abstract要約: 暗黙のトレーニング時間安全リスクは、モデルの内部インセンティブとコンテキスト背景情報によって引き起こされる。
5つのリスクレベル、10つのきめ細かいリスクカテゴリ、3つのインセンティブを持つ分類を導入した。
我々の結果は、過度に見過ごされているが、訓練における緊急の安全上の課題を特定します。
- 参考スコア(独自算出の注目度): 148.80266237240713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety risks of AI models have been widely studied at deployment time, such as jailbreak attacks that elicit harmful outputs. In contrast, safety risks emerging during training remain largely unexplored. Beyond explicit reward hacking that directly manipulates explicit reward functions in reinforcement learning, we study implicit training-time safety risks: harmful behaviors driven by a model's internal incentives and contextual background information. For example, during code-based reinforcement learning, a model may covertly manipulate logged accuracy for self-preservation. We present the first systematic study of this problem, introducing a taxonomy with five risk levels, ten fine-grained risk categories, and three incentive types. Extensive experiments reveal the prevalence and severity of these risks: notably, Llama-3.1-8B-Instruct exhibits risky behaviors in 74.4% of training runs when provided only with background information. We further analyze factors influencing these behaviors and demonstrate that implicit training-time risks also arise in multi-agent training settings. Our results identify an overlooked yet urgent safety challenge in training.
- Abstract(参考訳): AIモデルの安全性リスクは、有害なアウトプットを引き起こすジェイルブレイク攻撃など、デプロイメント時に広く研究されている。
対照的に、トレーニング中に生じる安全性のリスクはほとんど未解明のままである。
強化学習における明示的な報酬関数を直接操作する明示的な報酬ハック以外にも、モデルの内部インセンティブと文脈的背景情報によって引き起こされる有害な行動について、暗黙の訓練時間安全リスクについて研究する。
例えば、コードベースの強化学習において、モデルは自己保存のためのログ化された精度を隠蔽的に操作することができる。
5つのリスクレベル、10つのきめ細かいリスクカテゴリ、3つのインセンティブを持つ分類を導入した。
Llama-3.1-8B-Instructは、背景情報のみを提供する場合、74.4%のトレーニング実行において危険な行動を示す。
さらに、これらの行動に影響を与える要因を分析し、マルチエージェントトレーニング設定においても暗黙のトレーニング時間リスクが生じることを示した。
我々の結果は、過度に見過ごされているが、訓練における緊急の安全上の課題を特定します。
関連論文リスト
- When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - LM Agents May Fail to Act on Their Own Risk Knowledge [15.60032437959883]
言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
論文 参考訳(メタデータ) (2025-08-19T02:46:08Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [6.255435016547602]
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しい技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
総合実験の結果,ADVICEはトレーニング中の安全違反(50%)を有意に低減し,他の手法と比較して競争力のある結果が得られた。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。