論文の概要: Learning Associative Memories with Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.18724v1
- Date: Wed, 28 Feb 2024 21:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:40:38.632316
- Title: Learning Associative Memories with Gradient Descent
- Title(参考訳): 勾配降下を伴う学習連想記憶
- Authors: Vivien Cabannes, Berfin Simsek, Alberto Bietti
- Abstract要約: この研究は、トークン埋め込みの外部積を格納する1つの連想メモリモジュールのトレーニングダイナミクスに焦点を当てている。
相関埋め込みによるトークン周波数とメモリ干渉の不均衡が過渡的状態を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 21.182801606213495
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work focuses on the training dynamics of one associative memory module
storing outer products of token embeddings. We reduce this problem to the study
of a system of particles, which interact according to properties of the data
distribution and correlations between embeddings. Through theory and
experiments, we provide several insights. In overparameterized regimes, we
obtain logarithmic growth of the ``classification margins.'' Yet, we show that
imbalance in token frequencies and memory interferences due to correlated
embeddings lead to oscillatory transitory regimes. The oscillations are more
pronounced with large step sizes, which can create benign loss spikes, although
these learning rates speed up the dynamics and accelerate the asymptotic
convergence. In underparameterized regimes, we illustrate how the cross-entropy
loss can lead to suboptimal memorization schemes. Finally, we assess the
validity of our findings on small Transformer models.
- Abstract(参考訳): 本研究はトークン埋め込みの外積を格納する1つの連想メモリモジュールのトレーニングダイナミクスに焦点を当てている。
この問題を,データ分布の特性と埋め込み間の相関に応じて相互作用する粒子系の研究に還元する。
理論と実験を通じて、いくつかの洞察を与えます。
過度にパラメータ化されたシステムでは、 `` 分類マージンの対数的成長が得られる。
しかし,相関埋め込みによるトークン周波数とメモリ干渉の不均衡が,発振性トランザクショナルレジームに繋がることを示した。
振動は大きなステップサイズでより発音され、良質な損失スパイクを引き起こすが、これらの学習速度はダイナミクスを加速し漸近収束を加速する。
低パラメータのレジームでは、クロスエントロピー損失がいかに最適でない暗記スキームに繋がるかを説明している。
最後に,小型トランスフォーマーモデルを用いて,実験結果の有効性を評価する。
関連論文リスト
- Controllable Relation Disentanglement for Few-Shot Class-Incremental Learning [82.79371269942146]
本稿では,FewShot Class-Incremental Learning (FSCIL) を新たな視点,すなわち関係の絡み合いから扱うことを提案する。
急激な相関関係を切り離すことの課題は、FSCILの制御性が悪いことである。
我々は、CTRL-FSCIL(Controllable Relation-disentang FewShot Class-Incremental Learning)と呼ばれる、新しいシンプルな効果のある手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T03:16:59Z) - Dynamical signatures of non-Markovianity in a dissipative-driven qubit [0.0]
ボゾン環境に結合した周期駆動量子ビットの力学における非マルコビアン性のシグネチャについて検討する。
非マルコフ的特徴は、量子散逸に対する多様で相補的なアプローチからの予測を等しく基礎に比較することによって定量化される。
論文 参考訳(メタデータ) (2024-01-17T15:58:50Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - Dissipative Dynamics of Graph-State Stabilizers with Superconducting
Qubits [0.0]
本研究では,クラウドを介してアクセス可能な超伝導量子ビットデバイスに焦点をあてて,多粒子交絡状態の雑音的進化について検討する。
拡張マルコフ環境を用いたチャージパリティ分割のモデル化手法を提案する。
基礎となる多体力学は、量子誤差補正の文脈で広く用いられる安定化器の崩壊と復活を生じることを示す。
論文 参考訳(メタデータ) (2023-08-03T16:30:35Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - Continuous and time-discrete non-Markovian system-reservoir
interactions: Dissipative coherent quantum feedback in Liouville space [62.997667081978825]
2つの構造型貯水池に同時に露出する量子系について検討する。
対角線と対角線と外対角線の両方の貯留層相互作用を2倍のメモリと組み合わせた数値的精度の擬似2次元テンソルネットワークを用いて連続的および離散的遅延効果を示す。
例えば、離散フォトニックフィードバックと構造された音響フォノノノビアンモードの非マルコフ的相互作用を考察し、初期励起された2レベルシステム内での貯留層間相関と長寿命個体群トラップの出現を導いた。
論文 参考訳(メタデータ) (2020-11-10T12:38:35Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Memory kernel and divisibility of Gaussian Collisional Models [0.0]
オープンシステムのダイナミクスにおけるメモリ効果は、ここ数十年で大きな関心を集めてきた。
我々は,部分的なSWAPを実装したビームスプリッタと,アンシラを絡めて励起をシステムに供給する2モードスキューズという2種類の相互作用を解析する。
これら2つの代表的なシナリオのメモリカーネルの解析と拡張性により、量子領域におけるメモリ効果の背後にある複雑なメカニズムの解明に寄与する。
論文 参考訳(メタデータ) (2020-08-03T10:28:55Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Optimal Learning with Excitatory and Inhibitory synapses [91.3755431537592]
相関関係の存在下でアナログ信号間の関連性を保持するという課題について検討する。
ランダムな入力および出力プロセスのパワースペクトルの観点から、典型的な学習性能を特徴付ける。
論文 参考訳(メタデータ) (2020-05-25T18:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。