論文の概要: Controllable Value Alignment in Large Language Models through Neuron-Level Editing
- arxiv url: http://arxiv.org/abs/2602.07356v1
- Date: Sat, 07 Feb 2026 04:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.581171
- Title: Controllable Value Alignment in Large Language Models through Neuron-Level Editing
- Title(参考訳): ニューロンレベル編集による大言語モデルの制御可能な値アライメント
- Authors: Yonghui Yang, Junwei Li, Jilong Liu, Yicheng He, Fengbin Zhu, Weibiao Huang, Le Wu, Richang Hong, Tat-Seng Chua,
- Abstract要約: 我々は,大言語モデルにおける制御可能な値アライメントのためのニューロンレベルの編集フレームワークNeVAを提案する。
NeVAは、汎用能力においてより少ない性能劣化を招きながら、より強力な目標値アライメントを実現する。
NeVAは平均リークを著しく減らし、残効は意味論的に関連する値クラスに限られる。
- 参考スコア(独自算出の注目度): 87.83756695719667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human values has become increasingly important as their influence on human behavior and decision-making expands. However, existing steering-based alignment methods suffer from limited controllability: steering a target value often unintentionally activates other, non-target values. To characterize this limitation, we introduce value leakage, a diagnostic notion that captures the unintended activation of non-target values during value steering, along with a normalized leakage metric grounded in Schwartz's value theory. In light of this analysis, we propose NeVA, a neuron-level editing framework for controllable value alignment in LLMs. NeVA identifies sparse, value-relevant neurons and performs inference-time activation editing, enabling fine-grained control without parameter updates or retraining. Experiments show that NeVA achieves stronger target value alignment while incurring smaller performance degradation on general capability. Moreover, NeVA significantly reduces the average leakage, with residual effects largely confined to semantically related value classes. Overall, NeVA offers a more controllable and interpretable mechanism for value alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)を人的価値に適応させることは、人間の行動や意思決定への影響が拡大するにつれて、ますます重要になっている。
しかし、既存のステアリングベースのアライメント手法は制限された制御性に悩まされている。
この制限を特徴付けるために、値ステアリング中に意図しない非ターゲット値の活性化を捉える診断概念である値リークを導入し、シュワルツの値理論を基礎とした正規化リークメトリクスを導入する。
この分析から,LLMにおける制御可能な値アライメントのためのニューロンレベルの編集フレームワークであるNeVAを提案する。
NeVAはスパースで値に関連のあるニューロンを特定し、推論時のアクティベーション編集を実行し、パラメータの更新や再トレーニングなしにきめ細かい制御を可能にする。
実験により、NeVAは汎用能力でより小さな性能劣化を発生させながら、より強力な目標値アライメントを実現することが示された。
さらに、NeVAは平均リークを著しく減らし、残効は意味論的に関連する値クラスに限られる。
全体として、NeVAはバリューアライメントをより制御可能で解釈可能なメカニズムを提供する。
関連論文リスト
- V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文 参考訳(メタデータ) (2025-07-15T13:48:35Z) - Understanding How Value Neurons Shape the Generation of Specified Values in LLMs [31.185636385067152]
大規模言語モデルの社会的応用への統合は、普遍的倫理原則との整合性に対する懸念を強めている。
現在のアプローチでは、ニューラルネットワークでどのように値をエンコードするかを体系的に解釈するのに苦労している。
我々は、Schwartz Surveyに基盤を置く機械的解釈可能性フレームワークであるValueを紹介します。
論文 参考訳(メタデータ) (2025-05-23T10:30:09Z) - Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective [33.19778298286475]
我々は、潜在因果値グラフが大きな言語モデル(LLM)の値次元の根底にあることを論じ、アライメントトレーニングにもかかわらず、この構造は人間の値システムと大きく異なるままである。
これらの因果値グラフを利用して、ロールベースのプロンプトとスパースオートエンコーダ(SAE)ステアリングという2つの軽量なバリューステアリング手法を導出する。
Gemma-2B-ITとLlama3-8B-ITの実験により,本手法の有効性と可制御性を示した。
論文 参考訳(メタデータ) (2024-12-31T18:12:05Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。