論文の概要: CNT: Safety-oriented Function Reuse across LLMs via Cross-Model Neuron Transfer
- arxiv url: http://arxiv.org/abs/2603.18449v1
- Date: Thu, 19 Mar 2026 03:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.93812
- Title: CNT: Safety-oriented Function Reuse across LLMs via Cross-Model Neuron Transfer
- Title(参考訳): CNT: モデル間神経伝達によるLLMの安全性指向機能再利用
- Authors: Yue Zhao, Yujia Gong, Ruigang Liang, Shenchen Zhu, Kai Chen, Xuejing Yuan, Wangjun Zhang,
- Abstract要約: Cross-Model Neuron Transfer (CNT) は、オープンソースのドナーLSMからターゲットLSMへ最小限のニューロンサブセットを転送することで、安全指向機能を再利用するポストホック法である。
CNTは,安全性の相違,アライメントの強化,バイアス除去という3つの代表的な応用にまたがって,人気の高い7つの大言語モデルに対して評価を行う。
- 参考スコア(独自算出の注目度): 15.007568076942812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread deployment of large language models (LLMs) calls for post-hoc methods that can flexibly adapt models to evolving safety requirements. Meanwhile, the rapidly expanding open-source LLM ecosystem has produced a diverse collection of models that already exhibit various safety-related functionalities. This motivates a shift from constructing safety functionality from scratch to reusing existing functionality from external models, thereby avoiding costly data collection and training procedures. In this paper, we present Cross-Model Neuron Transfer (CNT), a post-hoc method that reuses safety-oriented functionality by transferring a minimal subset of neurons from an open-source donor LLM to a target LLM. By operating at the neuron level, CNT enables modular function-level adaptation, supporting both function addition andfunction deletion. We evaluate CNT on seven popular LLMs across three representative applications: safety disalignment, alignment enhancement, and bias removal. Experimental results show that CNT achieves targeted safety-oriented functionality transfer with minimal performance degradation (less than 1% for most models), consistently outperforming five baselines, demonstrating its generality and practical effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な展開は、進化する安全要件に柔軟にモデルを適応できるポストホックメソッドを要求する。
一方、急速に拡大しているオープンソースのLCMエコシステムは、すでに様々な安全性関連の機能を示す様々なモデルのコレクションを生み出している。
これにより、スクラッチから既存の機能を外部モデルから再利用することへの移行が動機となり、コストのかかるデータ収集やトレーニング手順が回避される。
本稿では、オープンソースドナーLSMからターゲットLSMへ最小限のニューロンサブセットを転送することで、安全指向機能を再利用するクロスモデルニューロントランスファー(CNT)を提案する。
ニューロンレベルでの操作により、CNTはモジュラー関数レベルの適応を可能にし、機能追加と機能削除の両方をサポートする。
CNTは,安全性の低下,アライメントの強化,バイアス除去の3つの代表的応用にまたがる7つのLLMに対して評価を行った。
実験結果から,CNTは最小性能劣化(ほとんどのモデルでは1%未満)で目標とする安全性指向機能転送を実現し,その汎用性と実用性を示した。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron [28.570811283705556]
大規模言語モデル(LLM)の安全性は、その開発における基本的側面としてますます高まっている。
LLMの既存の安全アライメントは、主にポストトレーニング手法によって達成される。
本稿では,専門家モデルの低コストトレーニングのみを要し,単一のニューロンをゲーティング機構として利用する安全対応復号法を提案する。
論文 参考訳(メタデータ) (2026-02-02T12:21:54Z) - FNF: Functional Network Fingerprint for Large Language Models [43.154221581110875]
FNF(Functional Network Fingerprint、FNF)は、被疑者モデルが被害者モデルから導出されているかどうかを検出する訓練のない、サンプル効率のよい手法である。
我々は、スケールやアーキテクチャの違いがあっても、共通の起源を持つモデルが神経活動の極めて一貫したパターンを示すことを示した。
従来の手法とは異なり,本手法では検証に少数のサンプルが必要であり,モデルの有用性を保ち,一般的なモデル修正に対して頑健である。
論文 参考訳(メタデータ) (2026-01-30T08:12:16Z) - Exploring Weaknesses in Function Call Models via Reinforcement Learning: An Adversarial Data Augmentation Approach [1.4795423578096045]
本稿では,Large Language Models (LLMs) の関数呼び出し機能を改善するために,新たな逆データ拡張手法を提案する。
我々のトレーニングフレームワークでは,関数呼び出し(FC)モデルに挑戦するために特別に設計された逆クエリを生成するために,強化学習で訓練されたクエリモデルを導入している。
全体として,本手法はより堅牢なFCモデルの開発を進め,LCMが外部ツールと対話する際の弱点を特定し,修正するための体系的な方法を提供する。
論文 参考訳(メタデータ) (2026-01-27T02:49:07Z) - Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。
ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2025-12-05T00:43:55Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities [69.26544016976396]
我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
論文 参考訳(メタデータ) (2025-03-28T15:21:24Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。