論文の概要: Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08484v1
- Date: Wed, 12 Nov 2025 02:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.834055
- Title: Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models
- Title(参考訳): LLMライクなソフトウェアへのパッチ:大規模言語モデルにおける安全性ポリシー改善のための軽量手法
- Authors: Huzaifa Arif, Keerthiram Murugesan, Ching-Yun Ko, Pin-Yu Chen, Payel Das, Alex Gittens,
- Abstract要約: ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。
提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
- 参考スコア(独自算出の注目度): 63.54707418559388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose patching for large language models (LLMs) like software versions, a lightweight and modular approach for addressing safety vulnerabilities. While vendors release improved LLM versions, major releases are costly, infrequent, and difficult to tailor to customer needs, leaving released models with known safety gaps. Unlike full-model fine-tuning or major version updates, our method enables rapid remediation by prepending a compact, learnable prefix to an existing model. This "patch" introduces only 0.003% additional parameters, yet reliably steers model behavior toward that of a safer reference model. Across three critical domains (toxicity mitigation, bias reduction, and harmfulness refusal) policy patches achieve safety improvements comparable to next-generation safety-aligned models while preserving fluency. Our results demonstrate that LLMs can be "patched" much like software, offering vendors and practitioners a practical mechanism for distributing scalable, efficient, and composable safety updates between major model releases.
- Abstract(参考訳): ソフトウェアバージョンのような大規模言語モデル(LLM)に対するパッチを提案し、安全性の脆弱性に対処するための軽量でモジュール化されたアプローチを提案する。
ベンダーがLLMバージョンの改善版をリリースする一方で、メジャーリリースはコストが高く、頻度が低く、顧客のニーズに合わせた調整が難しい。
フルモデルファインチューニングやメジャーバージョン更新とは異なり、既存のモデルにコンパクトで学習可能なプレフィックスを前もって、迅速な修復を可能にする。
この"パッチ"は0.003%の追加パラメータしか導入しないが、より安全な参照モデルのパラメータに対して確実にモデル動作を操縦する。
3つの重要な領域(毒性軽減、バイアス低減、有害性拒絶)の政策パッチは、流布を保ちながら次世代の安全対応モデルに匹敵する安全性の向上を達成する。
ベンダや実践者が大規模モデルリリース間でスケーラブルで効率的で構成可能な安全アップデートを分散するための実践的なメカニズムを提供するのです。
関連論文リスト
- Reimagining Safety Alignment with An Image [49.33281424100804]
大きな言語モデル(LLM)は多様なアプリケーションで優れていますが、Jailbreak攻撃下で有害なコンテンツを生成し、良質なクエリを過剰に拒否する、という2つの課題に直面しています。
我々は,過度な拒絶を低減しつつ,セキュリティを向上させる最適化駆動型ビジュアルプロンプトフレームワークであるMagic Imageを提案する。
論文 参考訳(メタデータ) (2025-11-01T11:27:07Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region [13.962617572588393]
テンプレートアンコレッド型安全アライメントは,多種多様な大言語モデル(LLM)にまたがっていることを示す。
我々の力学解析は、推論時ジェイルブレイク攻撃に遭遇した場合、モデルがどのような影響を受けやすいかを示す。
テンプレート領域から安全メカニズムを分離することで,脆弱性の軽減と脱獄攻撃が期待できることを示す。
論文 参考訳(メタデータ) (2025-02-19T18:42:45Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。