論文の概要: Sparse Reward Subsystem in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00986v1
- Date: Sun, 01 Feb 2026 02:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.506302
- Title: Sparse Reward Subsystem in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるスパースリワードサブシステム
- Authors: Guowei Xu, Mert Yuksekgonul, James Zou,
- Abstract要約: 大規模言語モデル(LLM)の隠れ状態におけるスパース報酬サブシステムを特定する。
このサブシステムは、モデルの内部的な状態値の期待を表す値ニューロンを含んでいることを実証する。
報酬予測と実際の報酬が分岐するケースを調べることにより、報酬予測誤差を符号化する報酬サブシステム内のドーパミンニューロンを同定する。
- 参考スコア(独自算出の注目度): 27.52743201177712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we identify a sparse reward subsystem within the hidden states of Large Language Models (LLMs), drawing an analogy to the biological reward subsystem in the human brain. We demonstrate that this subsystem contains value neurons that represent the model's internal expectation of state value, and through intervention experiments, we establish the importance of these neurons for reasoning. Our experiments reveal that these value neurons are robust across diverse datasets, model scales, and architectures; furthermore, they exhibit significant transferability across different datasets and models fine-tuned from the same base model. By examining cases where value predictions and actual rewards diverge, we identify dopamine neurons within the reward subsystem which encode reward prediction errors (RPE). These neurons exhibit high activation when the reward is higher than expected and low activation when the reward is lower than expected.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の隠れ状態におけるスパース報酬サブシステムを特定し,人間の脳の生物学的報酬サブシステムと類似していることを示す。
このサブシステムには、モデルの内部的な状態値期待を表す値ニューロンが含まれており、介入実験を通じて、これらのニューロンの推論の重要性を確立する。
我々の実験は、これらの値ニューロンが多様なデータセット、モデルスケール、アーキテクチャにわたって堅牢であることを明らかにし、さらに、異なるデータセットと同じベースモデルから微調整されたモデル間で大きな転送可能性を示す。
報酬予測と実際の報酬が分岐するケースを調べることで、報酬予測誤差(RPE)を符号化する報酬サブシステム内のドーパミンニューロンを同定する。
これらのニューロンは、報奨が期待よりも高いときに高い活性化を示し、報奨が期待よりも低いときに低い活性化を示す。
関連論文リスト
- NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [63.592664795493725]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、その一般化を実際の実験データで検証する最初の大規模ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Simple and complex spiking neurons: perspectives and analysis in a
simple STDP scenario [0.7829352305480283]
スパイキングニューラルネットワーク(SNN)は、生物学や神経科学にヒントを得て、高速で効率的な学習システムを構築する。
この研究は、文学における様々なニューロンモデルを考察し、単変数で効率的な計算ニューロンモデルを選択し、様々な種類の複雑さを提示する。
我々は, LIF, Quadratic I&F (QIF) および Exponential I&F (EIF) の3つの単純なI&Fニューロンモデルの比較研究を行い, より複雑なモデルの使用によってシステムの性能が向上するかどうかを検証した。
論文 参考訳(メタデータ) (2022-06-28T10:01:51Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Learning identifiable and interpretable latent models of
high-dimensional neural activity using pi-VAE [10.529943544385585]
本稿では,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。
我々の手法であるpi-VAEは、同定可能な変分自動エンコーダの最近の進歩にインスパイアされている。
人工データを用いてpi-VAEを検証し,それをラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。
論文 参考訳(メタデータ) (2020-11-09T22:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。