論文の概要: A Granular Study of Safety Pretraining under Model Abliteration
- arxiv url: http://arxiv.org/abs/2510.02768v1
- Date: Fri, 03 Oct 2025 07:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.294444
- Title: A Granular Study of Safety Pretraining under Model Abliteration
- Title(参考訳): モデル消滅時の安全訓練に関するグラニュラ的研究
- Authors: Shashank Agnihotri, Jonas Jakubassa, Priyam Dey, Sachin Goyal, Bernt Schiele, Venkatesh Babu Radhakrishnan, Margret Keuper,
- Abstract要約: 本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
- 参考スコア(独自算出の注目度): 64.24346997570275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight LLMs can be modified at inference time with simple activation edits, which raises a practical question for safety: do common safety interventions like refusal training or metatag training survive such edits? We study model abliteration, a lightweight projection technique designed to remove refusal-sensitive directions, and conduct a controlled evaluation across a granular sequence of Safety Pretraining checkpoints for SmolLM2-1.7B, alongside widely used open baselines. For each of 20 systems, original and abliterated, we issue 100 prompts with balanced harmful and harmless cases, classify responses as **Refusal** or **Non-Refusal** using multiple judges, and validate judge fidelity on a small human-labeled subset. We also probe whether models can identify refusal in their own outputs. Our study produces a checkpoint-level characterization of which data-centric safety components remain robust under abliteration, quantifies how judge selection influences evaluation outcomes, and outlines a practical protocol for integrating inference-time edits into safety assessments. Code: https://github.com/shashankskagnihotri/safety_pretraining.
- Abstract(参考訳): オープンウェイト LLM は単純なアクティベーション編集で推論時に修正できるため、安全性に関する現実的な疑問が浮き彫りになる。
本研究は,SmolLM2-1.7Bの安全予知チェックポイントの粒度列を網羅し,広義のオープンベースラインとともに制御評価を行う軽量投射法であるモデルアブリーブレーションについて検討する。
原文および省略された20のシステムそれぞれに対して、100のプロンプトをバランスの取れた有害かつ無害なケースで発行し、応答を**Refusal*または***Non-Refusal*に分類し、小さな人間ラベルのサブセットで判定忠実性を検証する。
また、モデルが自身の出力で拒否を識別できるかどうかを調査する。
本研究は,データ中心の安全コンポーネントが無音下で頑健であるチェックポイントレベルの特徴付けを行い,裁判官の選択が評価結果にどのように影響するかを定量化し,推論時間編集を安全評価に統合するための実践的プロトコルを概説する。
コード:https://github.com/shashankskagnihotri/safety_pretraining。
関連論文リスト
- Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文 参考訳(メタデータ) (2025-09-15T06:47:35Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [81.44934796068495]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
悪意のある攻撃者は、有害な質問応答(QA)ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入することができる。
脱獄型LDMのための新しいテキストクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - BFClass: A Backdoor-free Text Classification Framework [21.762274809679692]
そこで本研究では,テキスト分類のためのバックドアレス学習フレームワークであるBFClassを提案する。
BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスキング言語モデルに置き換えられたかどうかを予測する。
大規模な実験では、BFClassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを非常に限られた誤報で除去し、良質なトレーニングデータでトレーニングされたモデルとほぼ同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-22T17:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。