論文の概要: Continual Safety Alignment via Gradient-Based Sample Selection
- arxiv url: http://arxiv.org/abs/2604.17215v1
- Date: Sun, 19 Apr 2026 02:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.396937
- Title: Continual Safety Alignment via Gradient-Based Sample Selection
- Title(参考訳): 勾配型サンプル選択による連続的安全アライメント
- Authors: Thong Bach, Dung Nguyen, Thao Minh Le, Truyen Tran,
- Abstract要約: データ中心のレンズを通して、どのトレーニングサンプルがアライメントドリフトを引き起こすかを検討する。
微調整時に高次サンプルをフィルタする勾配型サンプル選択法を提案する。
提案手法は,選択率,タスク順序,多種多様な攻撃ベンチマークにまたがって堅牢である。
- 参考スコア(独自算出の注目度): 14.306119791052575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models require continuous adaptation to new tasks while preserving safety alignment. However, fine-tuning on even benign data often compromises safety behaviors, including refusal of harmful requests, truthfulness, and commonsense reasoning. We investigate which training samples cause alignment drift through a data-centric lens. Our empirical analysis shows samples contribute unequally: high-gradient samples cause greater safety degradation and drive models toward pretrained distributions, while moderate-gradient samples enable task learning with minimal alignment loss. We propose gradient-based sample selection that filters high-gradient samples during fine-tuning. Across multiple model families on continual domain tasks, our method substantially improves alignment preservation while maintaining competitive task performance, without requiring curated safe data or architectural modifications. Our method is robust across selection ratios, task orderings, and diverse attack benchmarks.
- Abstract(参考訳): 大規模な言語モデルは、安全性を維持しながら、新しいタスクへの継続的な適応を必要とします。
しかし、有害な要求の拒否、真実性、常識的推論など、良質なデータでも微調整が安全行動を損なうことがしばしばある。
データ中心のレンズを通して、どのトレーニングサンプルがアライメントドリフトを引き起こすかを検討する。
実験的な分析では、サンプルは不平等に寄与し、高次サンプルはより安全性を低下させ、事前訓練された分布に向けてモデルを駆動する一方、中次サンプルは最小限のアライメント損失でタスク学習を可能にする。
微調整時に高次サンプルをフィルタする勾配型サンプル選択法を提案する。
連続的なドメインタスクにおける複数のモデルファミリに対して、安全なデータやアーキテクチャの変更を必要とせず、競合するタスク性能を維持しながらアライメントの維持を大幅に改善する。
提案手法は,選択率,タスク順序,多種多様な攻撃ベンチマークにまたがって堅牢である。
関連論文リスト
- Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - Combating Noisy Labels through Fostering Self- and Neighbor-Consistency [120.4394402099635]
ラベルノイズは様々な現実世界のシナリオで広まり、教師付きディープラーニングの課題を提起する。
我々は、Jo-SNC(textbfSelf- と textbfNeighbor-textbfConsistency に基づくサンプル選択とモデル正規化)というノイズロバスト手法を提案する。
我々は、クラスごとの選択閾値を調整するための自己適応型データ駆動しきい値設定方式を設計する。
論文 参考訳(メタデータ) (2026-01-19T07:55:29Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Balanced Gradient Sample Retrieval for Enhanced Knowledge Retention in Proxy-based Continual Learning [5.778730972088573]
勾配を補正することで干渉を減らすことができるため、勾配に整列したサンプルが選択される。
勾配に沿ったサンプルは、タスク間の安定した共有表現を強化するために組み込まれます。
提案手法は,検索したインスタンス間の多様性を高め,パラメータ空間において優れたアライメントを実現する。
論文 参考訳(メタデータ) (2024-12-19T01:08:09Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Continual Test-time Domain Adaptation via Dynamic Sample Selection [38.82346845855512]
本稿では,連続テスト時間領域適応(CTDA)のための動的サンプル選択法を提案する。
誤情報を誤用するリスクを低減するため,高品質と低品質の両方のサンプルに共同正負の学習を適用した。
私たちのアプローチは3Dポイントのクラウドドメインでも評価されており、その汎用性とより広範な適用可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T06:35:21Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。