論文の概要: DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.27929v1
- Date: Thu, 30 Apr 2026 14:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.138178
- Title: DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
- Title(参考訳): DPN-LE:大言語モデルのための二重パーソナリティニューロンの局在と編集
- Authors: Lifan Zheng, Xue Yang, Jiawei Chen, Chenyan Wu, Jingyuan Zhang, Fanheng Kong, Xinyi Zeng, Xiang Chen, Yu Tian,
- Abstract要約: 現在の方法は個性を変えることができるが、全体的なパフォーマンスは低下する。
ニューロンは多機能であり、性格特性と一般的な知識を結びつける。
本研究では,高トレートおよび低トレート標本間のステアリング活性化を対比することにより,パーソナリティ特異的ニューロンを識別するDPN-LEを提案する。
- 参考スコア(独自算出の注目度): 25.763216553110386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of large language models (LLMs), understanding their personality representation mechanisms has become critical. As a novel paradigm in Personality Editing, most existing methods employ neuron-editing to locate and modify LLM neurons, requiring changes to numerous neurons and leading to significant performance degradation. This raises a fundamental question: Are all modified neurons directly related to personality representation? In this work, we investigate and quantify this specificity through assessments of general capability impact and representation-level patterns. We find that: 1) Current methods can change personalities but reduce overall performance. 2) Neurons are multifunctional, connecting personality traits and general knowledge. 3) Opposing personality traits demonstrate distinctly mutually exclusive representation patterns. Motivated by these findings, we propose DPN-LE (Dual Personality Neuron Localization and Editing), which identifies personality-specific neurons by contrasting MLP activations between high-trait and low-trait samples. DPN-LE constructs layer-wise steering vectors and applies dual-criterion filtering based on Cohen's $d$ effect size and activation magnitude to isolate mutually exclusive neuron subsets. Sparse linear intervention on these neurons enables precise personality control at inference time. Using only 1,000 contrastive sample pairs per trait, DPN-LE intervenes on $\sim$0.5\% of neurons while achieving competitive personality control and substantially better capability preservation across reasoning tasks. Experiments on LLaMA-3-8B-Instruct and Qwen2.5-7B-Instruct demonstrate the effectiveness and generalizability of our approach.
- Abstract(参考訳): 大規模言語モデル (LLM) の普及により, 人格表現機構の理解が重要になっている。
パーソナリティ編集における新しいパラダイムとして、既存のほとんどの手法ではLLMニューロンの発見と修正にニューロン編集を採用しており、多くのニューロンの変更が必要であり、性能が著しく低下する。
すべての修飾ニューロンは、パーソナリティ表現に直接関連しているのか?
本研究は,汎用能力の影響評価と表現レベルパターンを用いて,この特異性を検証し,定量化するものである。
以下に示す。
1)現在の手法は個性を変えることができるが、全体的な性能は低下する。
2)ニューロンは多機能であり,性格特性と一般知識を結びつける。
3) 性格特性の反対は, 相互に排他的な表現パターンを示す。
これらの結果からDPN-LE(Dual Personality Neuron Localization and Editing)を提案する。
DPN-LEは、相互排他的なニューロンサブセットを分離するために、Cohenの$d$効果サイズとアクティベーションサイズに基づいて、レイヤーワイズステアリングベクターを構築し、二重基準フィルタリングを適用する。
これらのニューロンへの疎線形干渉は、推論時に正確なパーソナリティ制御を可能にする。
DPN-LEは1形質あたり1,000対の対照的なサンプルペアしか使用せず、$\sim$0.5\%のニューロンに介入し、競争性のあるパーソナリティコントロールを達成し、推論タスク全体の能力保存を大幅に改善する。
LLaMA-3-8B-インストラクトとQwen2.5-7B-インストラクトの実験により,本手法の有効性と一般化性を示した。
関連論文リスト
- Know Thyself by Knowing Others: Learning Neuron Identity from Population Context [9.798773806523114]
本稿では,ニューロンレベルの表現学習のための最初の体系的スケーリング分析について述べる。
プレトレーニングで使用する動物数の増加は、下流のパフォーマンスを継続的に向上させることを示す。
結果は、多様で多様なニューラルネットワークが、動物全体にわたって一般化されるニューロンのアイデンティティに関する情報をモデルが回復する様子を強調している。
論文 参考訳(メタデータ) (2025-12-01T02:28:04Z) - Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
ニューロン実験勾配(NEG)は,活性化の変化が予測にどのように影響するかを捉える。
また, NEGは, スキルニューロン探索により, 多様なプロンプトにまたがる言語スキルを効果的に捉えていることを示す。
さらに分析は、効率性、堅牢性、柔軟性、相互依存といった、NEGベースのスキル表現の重要な特性を強調している。
論文 参考訳(メタデータ) (2024-12-24T00:01:24Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。