論文の概要: NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2508.09473v1
- Date: Wed, 13 Aug 2025 04:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.752297
- Title: NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs
- Title(参考訳): ニューロンチューン : LLMの安全性と安全性のバランス調整のための微粒化ニューロン制御
- Authors: Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian,
- Abstract要約: 本稿では,スパースニューロンを動的に調整し,安全性と実用性を同時に最適化するフレームワークであるNeuronTuneを提案する。
提案手法は、まず、属性を介して全層にわたる安全クリティカルかつ実用的保存ニューロンを特定し、メタラーニングを用いて、安全ニューロンの活性化を適応的に増幅し、実用ニューロンの活性化を抑制する。
- 参考スコア(独自算出の注目度): 19.133502330591092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring robust safety alignment while preserving utility is critical for the reliable deployment of Large Language Models (LLMs). However, current techniques fundamentally suffer from intertwined deficiencies: insufficient robustness against malicious attacks, frequent refusal of benign queries, degradation in generated text quality and general task performance--the former two reflecting deficits in robust safety and the latter constituting utility impairment. We trace these limitations to the coarse-grained layer-wise interventions in existing methods. To resolve this, we propose NeuronTune, a fine-grained framework that dynamically modulates sparse neurons to achieve simultaneous safety-utility optimization. Our approach first identifies safety-critical and utility-preserving neurons across all layers via attribution, then employs meta-learning to adaptively amplify safety-neuron activations and suppress utility-neuron activations. Crucially, NeuronTune enables tunable adjustment of intervention scope via neuron-count thresholds, supporting flexible adaptation to security-critical or utility-priority scenarios. Extensive experimental results demonstrate that our method significantly outperforms existing state-of-the-art technologies, achieving superior model safety while maintaining excellent utility.
- Abstract(参考訳): 実用性を維持しながら堅牢な安全性の確保は、LLM(Large Language Models)の信頼性の高いデプロイに不可欠である。
しかし、現在の技術は、悪質な攻撃に対する不十分な堅牢性、良心的なクエリの頻繁な拒否、生成されたテキスト品質の劣化、一般的なタスクパフォーマンスなど、基本的には相互に絡み合った欠陥に悩まされている。
これらの制限は、既存の手法における粗粒度層間干渉に遡る。
この問題を解決するために我々は,スパースニューロンを動的に調整し,同時に安全性と実用性を最適化する,きめ細かいフレームワークであるNeuronTuneを提案する。
提案手法は、まず、属性を介して全層にわたる安全クリティカルかつ実用的保存ニューロンを特定し、メタラーニングを用いて、安全ニューロンの活性化を適応的に増幅し、実用ニューロンの活性化を抑制する。
重要な点として、NeuronTuneは、ニューロン数閾値による介入範囲の調整を可能にし、セキュリティクリティカルまたはユーティリティプライオリティシナリオへの柔軟な適応をサポートする。
実験結果から,本手法は既存の最先端技術よりも優れ,優れた実用性を維持しつつ,優れたモデル安全性を実現していることが明らかとなった。
関連論文リスト
- Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks [12.216665194706708]
本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
論文 参考訳(メタデータ) (2025-08-08T03:20:25Z) - Of Good Demons and Bad Angels: Guaranteeing Safe Control under Finite Precision [0.716879432974126]
本稿では,有限精度摂動に頑健さを取り入れた理論保証と実世界の実装のギャップを埋める。
我々は、音質と効率的な実装を合成するために、最先端の混合精度固定点チューナーを用いて、完全なエンドツーエンドソリューションを提供する。
我々は,自動車・航空分野のケーススタディにアプローチし,厳密な無限時間地平線安全保証を備えた効率的なNN実装を構築した。
論文 参考訳(メタデータ) (2025-07-30T15:21:22Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Adaptive Soft Error Protection for Neural Network Processing [6.7356731848370295]
ニューラルネットワーク(NN)におけるソフトエラーの緩和は、しばしば計算オーバーヘッドを著しく発生させる。
従来の手法は主にNNコンポーネント間の静的な脆弱性のバリエーションを探索していた。
本稿では、入力やコンポーネント固有の脆弱性をソフトエラーにキャプチャできる軽量グラフニューラルネットワーク(GNN)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:54:52Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Backward Reachability Analysis of Neural Feedback Loops: Techniques for
Linear and Nonlinear Systems [59.57462129637796]
本稿では,ニューラルネットワークを用いた閉ループシステムの安全性検証のための後方到達性アプローチを提案する。
フィードバックループにおけるNNの存在は、その活性化関数の非線形性や、NNモデルは一般に可逆的ではないため、ユニークな問題セットを示す。
フィードフォワードNNで表される制御ポリシを持つ線形系と非線形系のBP過近似を計算するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T13:17:28Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。