論文の概要: GradShield: Alignment Preserving Finetuning
- arxiv url: http://arxiv.org/abs/2605.14194v1
- Date: Wed, 13 May 2026 23:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.537383
- Title: GradShield: Alignment Preserving Finetuning
- Title(参考訳): GradShield: ファインタニングのためのアライメント
- Authors: Zhanhao Hu, Xiao Huang, Patrick Mendoza, Emad A. Alghamdi, Basel Alomair, Raluca Ada Popa, David Wagner,
- Abstract要約: GradShieldは、微調整中にLLM(Large Language Models)を保護する、原則的なフィルタリング手法である。
データポイント毎にFinetuning Implicit Harmfulness Score(FIHS)を演算することで、潜在的に有害なデータを除去する。
実用性能を維持しながら、連続してアタック成功率(ASR)を6%以下に維持する。
- 参考スコア(独自算出の注目度): 14.841149847814796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) pose a significant risk of safety misalignment after finetuning, as models can be compromised by both explicitly and implicitly harmful data. Even some seemingly benign data can inadvertently steer a model towards misaligned behaviors. To address this, we introduce GradShield, a principled filtering method that safeguards LLMs during finetuning by identifying and removing harmful data points before they corrupt the model's alignment. It removes potentially harmful data by computing a Finetuning Implicit Harmfulness Score (FIHS) for each data point and employs an adaptive thresholding algorithm. We apply GradShield to multiple utility fine-tuning tasks across varying levels of harmful data and evaluate the safety and utility performance of the resulting LLMs using various metrics. The results show that GradShield outperforms all baseline methods, consistently maintaining an Attack Success Rate (ASR) below $6\%$ while preserving utility performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明示的にも暗黙的にも有害なデータによって、モデルが侵害される可能性があるため、微調整後の安全性のミスアライメントの重大なリスクを負う。
一見良心的なデータでさえも、不適切な振る舞いに向けてモデルを不注意に操縦することができる。
この問題を解決するために、モデルアライメントを破損する前に有害なデータポイントを特定し削除することで、微調整中にLCMを保護できる原理的なフィルタリング手法であるGradShieldを紹介した。
このアルゴリズムは、各データポイントに対してFinetuning Implicit Harmfulness Score (FIHS) を演算することで潜在的に有害なデータを除去し、適応しきい値アルゴリズムを使用する。
そこで,GradShieldを各種有害データレベルにわたる複数のユーティリティ微調整タスクに適用し,各種メトリクスを用いてLLMの安全性と実用性を評価する。
結果は、GradShieldがすべてのベースラインメソッドより優れており、実用性能を維持しながら、連続してアタック成功率(ASR)を6.5%以下に維持していることを示している。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2025-07-24T17:59:24Z) - Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks [32.73803760326097]
ファインタニング・アズ・ア・サービス(F: Finetuning-as-a-Service)は、ユーザが自身のデータを使ってLarge Language Models(LLM)をカスタマイズできる機能である。
プライマリワークは、まず安全に整合したモデルを構築し、次にユーザデータ上でモデルを微調整することで、この問題を緩和しようとします。
本稿では,Refusal-Teacher(Ref-Teacher)誘導ファインタニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:10:51Z) - Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets [49.412887135146725]
大規模言語モデル(LLM)の安全性を考慮したポストトレーニング防衛手法であるSafe Deltaを提案する。
当社のアプローチは、良質なデータセットからのユーティリティゲインが影響を受けないことを保証しながら、安全を継続的に維持します。
論文 参考訳(メタデータ) (2025-05-17T15:01:07Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Learning and Forgetting Unsafe Examples in Large Language Models [41.115096910603086]
大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。
協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。
このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
論文 参考訳(メタデータ) (2023-12-20T03:18:50Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。