論文の概要: SafeGene: Reusable Adapters for Transferable Safety Alignment
- arxiv url: http://arxiv.org/abs/2606.06519v1
- Date: Tue, 02 Jun 2026 14:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.335503
- Title: SafeGene: Reusable Adapters for Transferable Safety Alignment
- Title(参考訳): SafeGene: 転送可能な安全アライメントのための再利用可能なアダプタ
- Authors: Yanghan Wang, Zhiqiang Kou, Fu Feng, Jing Wang, Xin Geng,
- Abstract要約: マルチタスク再利用のための再利用可能な安全適応モジュールであるSafeGeneを提案する。
セーフジェネレーション強化モデルでは、下流性能を維持しながら、有害応答率を低減できることが示されている。
- 参考スコア(独自算出の注目度): 31.247158830484604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-weight LLMs are increasingly fine-tuned into customized assistants, but downstream fine-tuning can weaken safety alignment and make models more vulnerable to malicious prompts, even when the training data is not intentionally harmful. This creates a recurring safety recovery problem as target models are repeatedly updated with new task data or user interactions. We propose SafeGene, a reusable safety-adapter module designed for cross-task reuse within each architecture-compatible model family. Rather than treating safety recovery as a model-specific repair step, SafeGene treats safety capability as an independent, reusable adapter representation decoupled from task-specific updates. This representation is obtained from aligned--degraded model discrepancies, refined into task-transferable safety vectors through data-aware layer selection, and expressed in each downstream task-adapted model via few-shot layer-wise coefficient recalibration. Experiments across multiple model families, downstream tasks, and safety judges show that SafeGene-enhanced models reduce harmful response rates while maintaining downstream performance, outperforming representative safe adaptation methods in safety--utility trade-off.
- Abstract(参考訳): オープンウェイトLSMは、カスタマイズされたアシスタントに微調整される傾向にあるが、下流の微調整は安全性を弱め、トレーニングデータが意図的に有害でない場合でも、悪意のあるプロンプトに対してモデルをより脆弱にする可能性がある。
これにより、ターゲットモデルが新しいタスクデータやユーザインタラクションで繰り返し更新されるため、繰り返し安全回復問題が発生する。
アーキテクチャ互換モデルファミリ内でのクロスタスク再利用のために設計された,再利用可能な安全適応モジュールであるSafeGeneを提案する。
SafeGeneは、安全回復をモデル固有の修復ステップとして扱うのではなく、タスク固有の更新から切り離された独立した再利用可能なアダプタ表現として、安全性機能を扱います。
この表現は、整列劣化モデルの不一致から得られ、データ対応層選択によりタスク変換可能な安全ベクトルに洗練され、少数ショット層ワイド係数の補正により、下流の各タスク適応モデルで表現される。
複数のモデルファミリー、下流タスク、および安全判断者を対象とした実験により、セーフジェネレーションの強化されたモデルは、下流のパフォーマンスを維持しながら有害な応答率を低減し、安全ユーティリティトレードオフにおける代表的安全な適応方法よりも優れた結果が得られた。
関連論文リスト
- Do Models Share Safety Representations? Cross-Model Steering for Safe Visual Generation [52.122731171289665]
クロスモデル安全ステアリングのための最初のフレームワークを紹介する。
私たちのパイプラインは、ターゲット側の安全でないデータにアクセスしません。
多様なソース・ターゲット・モデル・ペア間のテキスト・ツー・イメージとテキスト・ツー・ビデオ生成におけるアプローチを評価する。
論文 参考訳(メタデータ) (2026-06-03T18:00:04Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。