論文の概要: Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?
- arxiv url: http://arxiv.org/abs/2604.11802v1
- Date: Mon, 13 Apr 2026 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.745771
- Title: Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?
- Title(参考訳): 心理学的概念ニューロン:LLMにおける神経制御バイアスの探索とシフト生成は可能か?
- Authors: Yuto Harada, Hiro Taiyo Hamada,
- Abstract要約: ビッグファイブのような心理的構造を用いて、大きな言語モデル(LLM)は特定のパーソナリティプロファイルを模倣し、ユーザのパーソナリティを予測する。
本研究では,質問紙操作のビッグファイブ概念に着目し,内部表現の形成と局所化を解析し,これらの表現が行動出力とどのように関連しているかを考察する。
- 参考スコア(独自算出の注目度): 0.7265327330178978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using psychological constructs such as the Big Five, large language models (LLMs) can imitate specific personality profiles and predict a user's personality. While LLMs can exhibit behaviors consistent with these constructs, it remains unclear where and how they are represented inside the model and how they relate to behavioral outputs. To address this gap, we focus on questionnaire-operationalized Big Five concepts, analyze the formation and localization of their internal representations, and use interventions to examine how these representations relate to behavioral outputs. In our experiment, we first use probing to examine where Big Five information emerges across model depth. We then identify neurons that respond selectively to each Big Five concept and test whether enhancing or suppressing their activations can bias latent representations and label generation in intended directions. We find that Big Five information becomes rapidly decodable in early layers and remains detectable through the final layers, while concept-selective neurons are most prevalent in mid layers and exhibit limited overlap across domains. Interventions on these neurons consistently shift probe readouts toward targeted concepts, with targeted success rates exceeding 0.8 for some concepts, indicating that the model's internal separation of Big Five personality traits can be causally steered. At the label-generation level, the same interventions often bias generated label distributions in the intended directions, but the effects are weaker, more concept-dependent, and often accompanied by cross-trait spillover, indicating that comparable control over generated labels is difficult even with interventions on a large fraction of concept-selective neurons. Overall, our findings reveal a gap between representational control and behavioral control in LLMs.
- Abstract(参考訳): ビッグファイブのような心理的構造を用いて、大きな言語モデル(LLM)は特定のパーソナリティプロファイルを模倣し、ユーザのパーソナリティを予測する。
LLMはこれらの構造と整合した振舞いを示すことができるが、モデルの内部でどのように表現され、どのように振舞いの出力に関連付けられているのかは不明である。
このギャップに対処するために,質問紙操作のビッグファイブ概念に着目し,内部表現の形成と局所化を分析し,これらの表現が行動出力にどのように関係しているかを調べるために介入を利用する。
実験では,まず探索を用いて,モデル深度にわたってビッグファイブ情報がどのように現れるかを調べる。
次に、各ビッグファイブ概念に選択的に反応するニューロンを特定し、その活性化の促進または抑制が意図した方向における潜在表現とラベル生成をバイアスするかどうかをテストする。
ビッグファイブ情報は、初期層において急速にデオード可能になり、最終層を通して検出され続けるのに対して、概念選択ニューロンは中層において最も多く、ドメイン間の重複が制限されている。
これらのニューロンに対する干渉は、目標とする概念に対してプローブの読み出しを常にシフトさせ、いくつかの概念において目標とする成功率は0.8を超え、モデルの内部でビッグファイブの性格特性を分離することは因果的に決定できることを示している。
ラベル生成レベルでは、同じ介入は意図された方向において生成されたラベル分布をバイアスすることが多いが、影響は弱く、概念に依存し、しばしば横断的な流出を伴う。
総じて, LLMにおける表現制御と行動制御のギャップが指摘された。
関連論文リスト
- What is Missing? Explaining Neurons Activated by Absent Concepts [57.02903530185128]
XAIは、ディープニューラルネットワーク(DNN)の動作に関する人間解釈可能な洞察を提供することを目指している
既存の研究において、この因果構造はしばしば、概念の存在がニューロンの強い活性化と関連している関係を含む。
ほとんど見過ごされがちな因果関係は、概念の欠如が神経活動を増加させるエンコードされた欠如であることを示す。
論文 参考訳(メタデータ) (2026-03-10T15:21:52Z) - H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs [56.31565301428888]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定
同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (2025-12-01T15:32:14Z) - Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports [18.336392633341493]
大規模な類似性判定は、脳の感情幾何学をより忠実に捉えることができることを示す。
MLLMは、リッチで神経に適応した感情表現を自律的に開発できるという、説得力のある証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T05:22:33Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。