論文の概要: Enabling Robust In-Context Memory and Rapid Task Adaptation in Transformers with Hebbian and Gradient-Based Plasticity
- arxiv url: http://arxiv.org/abs/2510.21908v1
- Date: Fri, 24 Oct 2025 17:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.702832
- Title: Enabling Robust In-Context Memory and Rapid Task Adaptation in Transformers with Hebbian and Gradient-Based Plasticity
- Title(参考訳): Hebbian および Gradient-Based Plasticity を用いた変圧器におけるロバストなインコンテキストメモリと高速タスク適応の実現
- Authors: Siddharth Chaudhary,
- Abstract要約: 本研究は, バイオインスパイアされた可塑性が, より高速なインシーケンス適応でトランスフォーマーを育むことができるかどうかを考察する。
高速加重モジュールを用いたデコーダのみのトランスフォーマーを, (i) ニューロ変調ヘビアン法, (ii) Duanらによる勾配型可塑性機構により強化した。
コピー、レグレッション、および数ショットの分類タスク全体にわたって、ヘビアン可塑性は一貫して損失を減らし、より強力な数ショットの一般化を達成する一方、勾配ベースの更新は長期のクレジット割り当てにおいて最善である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models display in-context learning as an emergent effect of scale, but they rely on static weights during inference. In contrast, biological systems continually adapt via synaptic plasticity. We investigate whether explicit, biologically inspired plasticity can endow Transformers with faster in-sequence adaptation. To this end, we augment decoder-only Transformers with fast-weight modules updated either by (i) a neuromodulated Hebbian rule or (ii) the gradient-based plasticity mechanism of Duan et al. (2023). Across copying, regression, and few-shot classification tasks (CIFAR-FS, Omniglot), Hebbian plasticity consistently achieves lower loss and stronger few-shot generalization, while gradient-based updates perform best on long-horizon credit assignment. When associations are short and linearly separable, static weights suffice, defining a clear boundary condition for when plasticity helps. Analysis of learned modulatory signals reveals that gradient-based rules maintain large, persistent updates, whereas Hebbian plasticity is sharply gated around salient events. Together, these results show that explicit plasticity complements attention by enabling rapid, task-specific adaptation, and clarify when different plasticity mechanisms are most effective.
- Abstract(参考訳): 大規模言語モデルは、スケールの創発的な効果としてコンテキスト内学習を示すが、それらは推論中に静的な重みに依存する。
対照的に、生物学的システムはシナプス可塑性によって継続的に適応する。
本研究は, バイオインスパイアされた可塑性が, より高速なインシーケンス適応でトランスフォーマーを育むことができるかどうかを考察する。
この目的のために、高速モジュールを更新したデコーダのみのトランスフォーマーを増設する。
(i)神経調節ヘビーンの規則又は
(II)Duan et al(2023)の勾配に基づく塑性機構。
コピー、レグレッション、小ショット分類タスク(CIFAR-FS、Omniglot)全体にわたって、ヘビアン可塑性は一貫して減少し、より強力な小ショット一般化を達成する。
結合が短く、線形に分離可能な場合、静的な重みは十分であり、可塑性が役に立つときの明確な境界条件を定義する。
学習した変調信号の解析により、勾配に基づく規則が大きな持続的な更新を維持することが明らかとなった。
これらの結果から, 明示的な可塑性は, 迅速かつタスク特異的な適応を可能にし, 異なる可塑性機構が最も効果的であるかどうかを明らかにすることにより, 注意を補うことが示唆された。
関連論文リスト
- Activation Function Design Sustains Plasticity in Continual Learning [1.618563064839635]
継続的な学習では、モデルは適応する能力を失う可能性がある。
可塑性損失を軽減するため, アクティベーション選択はアーキテクチャに依存しない主要なレバーであることを示す。
論文 参考訳(メタデータ) (2025-09-26T16:41:47Z) - Allee Synaptic Plasticity and Memory [0.0]
本稿ではアリーベース非線形塑性モデルについて検討する。
生物学的にインスパイアされた体重安定化機構、騒音の堅牢性の向上、シナプス調節の限界しきい値を強調している。
論文 参考訳(メタデータ) (2025-08-11T18:27:23Z) - Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。
埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。
我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文 参考訳(メタデータ) (2025-05-21T15:12:34Z) - Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - Preserving Plasticity in Continual Learning with Adaptive Linearity Injection [10.641213440191551]
ディープニューラルネットワークにおける可塑性の喪失は、漸進的に学習するモデルの能力が徐々に低下することである。
近年の研究では、深い線形ネットワークは可塑性の喪失に対して弾力性があることが示されている。
適応線形化(AdaLin)は,各ニューロンの活性化機能を動的に適応し,可塑性損失を軽減する一般的な手法である。
論文 参考訳(メタデータ) (2025-05-14T15:36:51Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Hebbian and Gradient-based Plasticity Enables Robust Memory and Rapid
Learning in RNNs [13.250455334302288]
シナプスの可塑性は記憶の形成と学習において重要な役割を担っているという証拠がある。
リカレントニューラルネットワークに塑性規則を付与し、進行中の経験に応じてパラメータを適応できるようにします。
本モデルでは, 逐次的, 連想的メモリタスクにおける有望な結果を示し, 記憶を堅牢に形成, 維持する能力を示す。
論文 参考訳(メタデータ) (2023-02-07T03:42:42Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。