論文の概要: Understanding How Value Neurons Shape the Generation of Specified Values in LLMs
- arxiv url: http://arxiv.org/abs/2505.17712v1
- Date: Fri, 23 May 2025 10:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.995319
- Title: Understanding How Value Neurons Shape the Generation of Specified Values in LLMs
- Title(参考訳): LLMの特定値生成における値ニューロンの形状の理解
- Authors: Yi Su, Jiayi Zhang, Shu Yang, Xinhai Wang, Lijie Hu, Di Wang,
- Abstract要約: 大規模言語モデルの社会的応用への統合は、普遍的倫理原則との整合性に対する懸念を強めている。
現在のアプローチでは、ニューラルネットワークでどのように値をエンコードするかを体系的に解釈するのに苦労している。
我々は、Schwartz Surveyに基盤を置く機械的解釈可能性フレームワークであるValueを紹介します。
- 参考スコア(独自算出の注目度): 31.185636385067152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid integration of large language models (LLMs) into societal applications has intensified concerns about their alignment with universal ethical principles, as their internal value representations remain opaque despite behavioral alignment advancements. Current approaches struggle to systematically interpret how values are encoded in neural architectures, limited by datasets that prioritize superficial judgments over mechanistic analysis. We introduce ValueLocate, a mechanistic interpretability framework grounded in the Schwartz Values Survey, to address this gap. Our method first constructs ValueInsight, a dataset that operationalizes four dimensions of universal value through behavioral contexts in the real world. Leveraging this dataset, we develop a neuron identification method that calculates activation differences between opposing value aspects, enabling precise localization of value-critical neurons without relying on computationally intensive attribution methods. Our proposed validation method demonstrates that targeted manipulation of these neurons effectively alters model value orientations, establishing causal relationships between neurons and value representations. This work advances the foundation for value alignment by bridging psychological value frameworks with neuron analysis in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会的応用への迅速な統合は、行動アライメントの進展にもかかわらず、内部値の表現が不透明であることから、普遍的倫理原則との整合性に対する懸念を強めている。
現在のアプローチでは、機械的解析よりも表面的な判断を優先するデータセットによって制限された、ニューラルネットワークでどのように値をエンコードするかを体系的に解釈するのに苦労している。
我々は、このギャップに対処するために、Schwartz Values Surveyに基盤を置く機械的解釈可能性フレームワークであるValueLocateを紹介します。
本手法はまず,実世界の行動コンテキストを通じて,4次元の普遍的価値を運用するデータセットであるValueInsightを構築した。
このデータセットを利用して、対立する値の側面間の活性化差を計算し、計算集約的な帰属法に頼ることなく、価値クリティカルニューロンの正確な局在化を可能にするニューロン識別法を開発した。
提案手法は,これらのニューロンを標的とした操作がモデル値の向きを効果的に変化させ,ニューロンと値表現の因果関係を確立することを実証する。
この研究は、LLMのニューロン分析による心理的価値の枠組みをブリッジすることで、価値アライメントの基礎を前進させる。
関連論文リスト
- Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs [2.761261381839981]
本研究では,大規模言語モデルにおける国家社会価値の行動駆動メカニズムを探求する,ValueExplorationという新しいフレームワークを提案する。
まず,中国社会価値を大言語モデルで符号化するニューロンを同定し,同定する。
これらのニューロンを不活性化することにより、モデル行動の変化を分析し、LLM決定に影響を及ぼす内部メカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:23:59Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Neural network interpretability with layer-wise relevance propagation: novel techniques for neuron selection and visualization [0.49478969093606673]
本稿では,選択したニューロンのパーシングを改善する新しいアプローチを提案する。
Visual Geometry Group 16 (VGG16) アーキテクチャをケーススタディとして用いたLRP後方伝播
本手法は、コンピュータビジョンアプリケーションのための、より透明な人工知能(AI)システムの開発を支援する。
論文 参考訳(メタデータ) (2024-12-07T15:49:14Z) - Towards Utilising a Range of Neural Activations for Comprehending Representational Associations [0.6554326244334868]
ディープニューラルネットワークにおける中間表現をラベル付けするアプローチでは,その振る舞いに関する貴重な情報を捕捉できないことを示す。
非極端レベルのアクティベーションには、調査する価値のある複雑な情報が含まれていると仮定する。
そこで本研究では,中間領域のロジットサンプルから得られたデータを用いて,スプリアス相関を緩和する手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T07:54:14Z) - TractGeoNet: A geometric deep learning framework for pointwise analysis
of tract microstructure to predict language assessment performance [66.43360974979386]
拡散磁気共鳴画像(dMRI)による回帰処理を行うための幾何学的深層学習フレームワークであるTractGeoNetを提案する。
回帰性能を向上させるために,新しい損失関数 Paired-Siamese Regression Los を提案する。
本手法の有効性を,2つの言語神経心理学的評価に対して予測することで評価した。
論文 参考訳(メタデータ) (2023-07-08T14:10:37Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - Interpreting Deep Neural Networks with Relative Sectional Propagation by
Analyzing Comparative Gradients and Hostile Activations [37.11665902583138]
DNN(Deep Neural Networks)の出力予測を分解するための新しいアトリビューション手法であるRelative Sectional Propagation(RSP)を提案する。
我々は、敵対的因子をターゲットの属性を見つけるのを妨げる要素として定義し、活性化ニューロンの非抑制的な性質を克服するために区別可能な方法でそれを伝播させる。
本手法により,従来の帰属法と比較して,DNNのクラス識別性や活性化ニューロンの詳細な解明により,DNNの予測を分解することができる。
論文 参考訳(メタデータ) (2020-12-07T03:11:07Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。