論文の概要: Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis
- arxiv url: http://arxiv.org/abs/2601.04262v1
- Date: Wed, 07 Jan 2026 06:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.837459
- Title: Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis
- Title(参考訳): 安全と安全の対立はグローバルではない--頭部診断による外科的適応
- Authors: Wang Cai, Yilin Wen, Jinchang Hou, Du Su, Guoqiu Wang, Zhonghou Lv, Chenfu Bao, Yunfang Wu,
- Abstract要約: LLM(Large Language Models)における安全性の整合性は、本質的には多目的最適化の競合を示す。
本稿では,頭部診断とスパースファインチューニングを統合したフレームワークであるConflict-Aware Sparse Tuning (CAST)を提案する。
- 参考スコア(独自算出の注目度): 9.6880492141877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in Large Language Models (LLMs) inherently presents a multi-objective optimization conflict, often accompanied by an unintended degradation of general capabilities. Existing mitigation strategies typically rely on global gradient geometry to resolve these conflicts, yet they overlook Modular Heterogeneity within Transformers, specifically that the functional sensitivity and degree of conflict vary substantially across different attention heads. Such global approaches impose uniform update rules across all parameters, often resulting in suboptimal trade-offs by indiscriminately updating utility sensitive heads that exhibit intense gradient conflicts. To address this limitation, we propose Conflict-Aware Sparse Tuning (CAST), a framework that integrates head-level diagnosis with sparse fine-tuning. CAST first constructs a pre-alignment conflict map by synthesizing Optimization Conflict and Functional Sensitivity, which then guides the selective update of parameters. Experiments reveal that alignment conflicts in LLMs are not uniformly distributed. We find that the drop in general capabilities mainly comes from updating a small group of ``high-conflict'' heads. By simply skipping these heads during training, we significantly reduce this loss without compromising safety, offering an interpretable and parameter-efficient approach to improving the safety-utility trade-off.
- Abstract(参考訳): LLM(Large Language Models)における安全性の整合性は、本質的には多目的最適化の競合を示し、しばしば意図しない一般的な能力の低下を伴う。
既存の緩和戦略は、これらの矛盾を解決するために、大域的な勾配幾何学に依存するが、トランスフォーマー内のモジュラーな不均一性を見落とし、特に機能的感度と競合の度合いは、異なる注意ヘッド間で大きく異なる。
このようなグローバルなアプローチは、すべてのパラメータに対して均一な更新ルールを課し、しばしば、厳格な勾配の矛盾を示す実用性に敏感なヘッドを無差別に更新することで、最適以下のトレードオフをもたらす。
この制限に対処するため,本研究では,頭部診断とスパース微調整を統合するフレームワークであるConflict-Aware Sparse Tuning (CAST)を提案する。
CASTはまず、最適化競合と機能感度を合成して事前調整競合マップを構築し、パラメータの選択的な更新をガイドする。
実験により、LLMにおけるアライメントコンフリクトが均一に分散されていないことが明らかになった。
一般的な能力の低下は、主に `high-conflict'' の小さなグループを更新することに起因する。
トレーニング中にこれらのヘッドをスキップするだけで、安全性を損なうことなく、安全性と実用性のトレードオフを改善するための解釈可能かつパラメータ効率の高いアプローチを提供することができる。
関連論文リスト
- Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment [5.900494456937422]
逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
本稿では,その微調整過程を知識統合の一形態として扱うことにより,このような不整合を識別・緩和する新たな枠組みについて検討する。
論文 参考訳(メタデータ) (2025-12-10T00:52:21Z) - Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces [12.630494786258842]
Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
論文 参考訳(メタデータ) (2025-11-28T15:34:36Z) - OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment [61.02595549125661]
大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-29T11:16:30Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training [61.35809887986553]
我々は、SCAT(stabilized Conflict-Optimization Adversarial Training)という、汎用的な敵訓練フレームワークを提案する。
SCATは、安定性と一般化のバランスを達成するために、敵データ拡張を自己教師付きMDE手法に統合する。
5つのベンチマーク実験により、SCATは最先端の性能を達成でき、既存の自己監督型MDE法の一般化能力を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-11-04T15:06:57Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Rethinking Invariance Regularization in Adversarial Training to Improve Robustness-Accuracy Trade-off [11.836020809561383]
敵の訓練は、しばしばロバストネスのトレードオフに悩まされ、高いロバストネスを達成することは精度の犠牲となる。
非対称表現正規化逆行訓練(ARAT)を提案する。
ARATは、非対称な不斉損失と停止段階の演算と予測器を組み込み、勾配の衝突を回避し、混合分布問題を解決するためにスプリット・バッチノーム(BN)構造を組み込む。
論文 参考訳(メタデータ) (2024-02-22T15:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。