論文の概要: Dopamine: Brain Modes, Not Brains
- arxiv url: http://arxiv.org/abs/2602.11726v1
- Date: Thu, 12 Feb 2026 08:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.732063
- Title: Dopamine: Brain Modes, Not Brains
- Title(参考訳): ドーパミン:脳モード、脳ではなく
- Authors: Shervin Ghasemlou,
- Abstract要約: しきい値効率の良い微細チューニング(PEFT)法は、小さな重み空間更新を追加することで、大きな事前訓練されたモデルに適応する。
基本重量を凍結し,ニューロン単位のエンフェインとエンフェインを学習する,シンプルなアクティベーション空間PEFT技術である Methodname を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods such as \lora{} adapt large pretrained models by adding small weight-space updates. While effective, weight deltas are hard to interpret mechanistically, and they do not directly expose \emph{which} internal computations are reused versus bypassed for a new task. We explore an alternative view inspired by neuromodulation: adaptation as a change in \emph{mode} -- selecting and rescaling existing computations -- rather than rewriting the underlying weights. We propose \methodname{}, a simple activation-space PEFT technique that freezes base weights and learns per-neuron \emph{thresholds} and \emph{gains}. During training, a smooth gate decides whether a neuron's activation participates; at inference the gate can be hardened to yield explicit conditional computation and neuron-level attributions. As a proof of concept, we study ``mode specialization'' on MNIST (0$^\circ$) versus rotated MNIST (45$^\circ$). We pretrain a small MLP on a 50/50 mixture (foundation), freeze its weights, and then specialize to the rotated mode using \methodname{}. Across seeds, \methodname{} improves rotated accuracy over the frozen baseline while using only a few hundred trainable parameters per layer, and exhibits partial activation sparsity (a minority of units strongly active). Compared to \lora{}, \methodname{} trades some accuracy for substantially fewer trainable parameters and a more interpretable ``which-neurons-fire'' mechanism. We discuss limitations, including reduced expressivity when the frozen base lacks features needed for the target mode.
- Abstract(参考訳): パラメータ効率のよい微細チューニング(PEFT)法は、小さな重み空間の更新を加えることで、大きな事前訓練されたモデルに適応する。
有効ではあるが、ウェイトデルタは機械的解釈が難しいため、内部計算が再利用されるか、新しいタスクにバイパスされるかを直接公開しない。
我々は、基礎となる重みを書き換えるのではなく、既存の計算を選択し、再スケーリングする \emph{mode} の変化として適応すること。
基本重みを凍結し,ニューロンごとのemph{thresholds} と \emph{gains} を学習する,単純な活性化空間PEFT 技術である \methodname{} を提案する。
訓練中、スムーズなゲートはニューロンの活性化が関与するかどうかを判断し、推論時にゲートを硬化させて明示的な条件計算とニューロンレベルの属性を生成する。
概念の証明として、MNIST (0$^\circ$) 対回転MNIST (45$^\circ$) における ``mode specialization'' について検討する。
我々は50/50の混合(境界)上に小さなMLPをプリトレーニングし、その重みを凍結し、次に \methodname{} を用いて回転モードに特化する。
種全体にわたって、'methodname{} は、層ごとに数百のトレーニング可能なパラメータしか使用せず、凍結ベースライン上で回転精度を向上し、部分的な活性化間隔を示す(少数のユニットが強く活動している)。
\lora{} と比較すると、\methodname{} はトレーニング可能なパラメータを著しく少なくし、より解釈可能な `which-neurons-fire'' メカニズムを交換する。
我々は,凍結したベースにターゲットモードに必要な機能がない場合の表現率の低下など,制限について議論する。
関連論文リスト
- Language Model Circuits Are Sparse in the Neuron Basis [50.460651620833055]
その結果, textbfMLP ニューロンは SAE と同様の機能的基盤であることがわかった。
この作業は、追加のトレーニングコストなしで言語モデルの自動解釈可能性を向上させる。
論文 参考訳(メタデータ) (2026-01-30T05:41:19Z) - Hyperparameter Loss Surfaces Are Simple Near their Optima [50.74035795378814]
複素損失曲面を明らかにするために,ランダム探索に基づく手法を開発した。
この体制の中では、ランダム検索から得られる最良のスコアは、我々が発見する新しい分布である。
これらの特徴から、その収束を説明・外挿できるランダム探索の新しい法則を導出する。
これらの新しいツールは、最高のパフォーマンスのための信頼区間などの新しい分析を可能にする。
論文 参考訳(メタデータ) (2025-10-03T04:52:27Z) - Walking the Weight Manifold: a Topological Approach to Conditioning Inspired by Neuromodulation [1.81174609456502]
脳には異なる戦略があり、パラメータ自体はセロトニンなどの様々な神経調節物質の機能として調節される。
そこで我々は,ニューロ変調からインスピレーションを得て,タスクコンテキスト変数のスムーズなパラメータ化関数である重みを学習することを提案する。
論文 参考訳(メタデータ) (2025-05-29T02:03:29Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [7.972074133591484]
我々は, LLMの任意のプルーニングアルゴリズム上で使用可能な, エフェストアップアルゴリズムである textbfNeuroAl を提案する。
我々の手法は、パフォーマンス・ランタイムトレードオフの観点から最新の最先端手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Minimum Variance Unbiased N:M Sparsity for the Neural Gradients [29.555643722721882]
ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2まで削減する。
本稿では,この手法を神経勾配にも適用する方法について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:59:43Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。