論文の概要: When Should We Introduce Safety Interventions During Pretraining?
- arxiv url: http://arxiv.org/abs/2601.07087v1
- Date: Sun, 11 Jan 2026 22:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.15835
- Title: When Should We Introduce Safety Interventions During Pretraining?
- Title(参考訳): プレトレーニング中に安全対策をいつ導入すべきか
- Authors: Dylan Sam, Sachin Goyal, Pratyush Maini, Alexander Robey, J. Zico Kolter,
- Abstract要約: 先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
- 参考スコア(独自算出の注目度): 100.3502954292386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the safety of language models in high-stakes settings remains a pressing challenge, as aligned behaviors are often brittle and easily undone by adversarial pressure or downstream finetuning. Prior work has shown that interventions applied during pretraining, such as rephrasing harmful content, can substantially improve the safety of the resulting models. In this paper, we study the fundamental question: "When during pretraining should safety interventions be introduced?" We keep the underlying data fixed and vary only the choice of a safety curriculum: the timing of these interventions, i.e., after 0%, 20%, or 60% of the pretraining token budget. We find that introducing interventions earlier generally yields more robust models with no increase in overrefusal rates, with the clearest benefits appearing after downstream, benign finetuning. We also see clear benefits in the steerability of models towards safer generations. Finally, we observe that earlier interventions reshape internal representations: linear probes more cleanly separate safe vs harmful examples. Overall, these results argue for incorporating safety signals early in pretraining, producing models that are more robust to downstream finetuning and jailbreaking, and more reliable under both standard and safety-aware inference procedures.
- Abstract(参考訳): 対向的な圧力や下流の微調整によって、協調行動が不安定で容易に解除されることがしばしばあるため、ハイテイクな環境で言語モデルの安全性を確保することは、依然としてプレッシャーのかかる課題である。
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
本稿では,「事前訓練中の安全介入はいつ導入されるべきか?」という根本的な疑問を考察する。
これらの介入のタイミング、すなわち、事前訓練されたトークン予算の0%、20%、あるいは60%のタイミングである。
早期の介入の導入は、一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
最後に, 従来の介入が内部表現を再構築する様子を観察する: 線形プローブはよりクリーンに分離され, 有害な例となる。
全体として、これらの結果は、事前訓練の早期に安全信号を導入し、下流の微調整や脱獄に対してより堅牢で、標準および安全に配慮した推論手順においてより信頼性の高いモデルを生成することを主張する。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。