論文の概要: Clustering and Alignment: Understanding the Training Dynamics in Modular Addition
- arxiv url: http://arxiv.org/abs/2408.09414v1
- Date: Sun, 18 Aug 2024 09:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:50:15.190595
- Title: Clustering and Alignment: Understanding the Training Dynamics in Modular Addition
- Title(参考訳): クラスタリングとアライメント: モジュール追加におけるトレーニングダイナミクスの理解
- Authors: Tiberiu Musat,
- Abstract要約: モジュラ付加問題に対する2次元埋め込みを用いた簡易変圧器の訓練力学について検討した。
それらの出現は,クラスタリングとアライメントという,組込みの2つの単純な傾向から説明される。
我々は、我々の洞察を利用して体重減少の役割を議論し、正規化とトレーニングのダイナミクスを結びつける新しいメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have revealed that neural networks learn interpretable algorithms for many simple problems. However, little is known about how these algorithms emerge during training. In this article, we study the training dynamics of a simplified transformer with 2-dimensional embeddings on the problem of modular addition. We observe that embedding vectors tend to organize into two types of structures: grids and circles. We study these structures and explain their emergence as a result of two simple tendencies exhibited by pairs of embeddings: clustering and alignment. We propose explicit formulae for these tendencies as interaction forces between different pairs of embeddings. To show that our formulae can fully account for the emergence of these structures, we construct an equivalent particle simulation where we find that identical structures emerge. We use our insights to discuss the role of weight decay and reveal a new mechanism that links regularization and training dynamics. We also release an interactive demo to support our findings: https://modular-addition.vercel.app/.
- Abstract(参考訳): 最近の研究によると、ニューラルネットワークは多くの単純な問題に対して解釈可能なアルゴリズムを学習している。
しかし、これらのアルゴリズムがトレーニング中にどのように現れるかはほとんど分かっていない。
本稿では,モジュラ付加問題に対する2次元埋め込みを用いた簡易変圧器のトレーニング力学について検討する。
埋め込みベクトルは、格子と円という2種類の構造に整理される傾向がある。
これらの構造を考察し, クラスタリングとアライメントという2組の組込みによって示される2つの単純な傾向の結果として, それらの出現を説明する。
埋め込みの異なるペア間の相互作用力として,これらの傾向の明示的な式を提案する。
この公式がこれらの構造の出現を完全に説明できることを示すため、同一構造が出現することを示す等価粒子シミュレーションを構築した。
我々は、我々の洞察を利用して体重減少の役割を議論し、正規化とトレーニングのダイナミクスを結びつける新しいメカニズムを明らかにする。
また、この発見をサポートするインタラクティブなデモもリリースしています。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Seeing is Believing: Brain-Inspired Modular Training for Mechanistic
Interpretability [5.15188009671301]
Brain-Inspired Modular Trainingは、ニューラルネットワークをよりモジュール的で解釈可能なものにする方法である。
BIMTは、ニューロンを幾何学的空間に埋め込み、各ニューロン接続の長さに比例して損失関数を増大させる。
論文 参考訳(メタデータ) (2023-05-04T17:56:42Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。
当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文 参考訳(メタデータ) (2022-10-12T07:29:18Z) - Clustering units in neural networks: upstream vs downstream information [3.222802562733787]
フィードフォワード全接続ネットワークの隠蔽層表現のモジュラリティについて検討する。
2つの驚くべき結果が得られた: 第一に、ドロップアウトはモジュラリティを劇的に増加させ、他の形態の重み正規化はより穏やかな効果を持っていた。
このことは、入力の構造を反映するモジュラー表現を見つけることは、出力の構造を反映するモジュラー表現を学習することとは異なる目標である、という示唆から、表現学習に重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-22T15:35:10Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Learning compositional functions via multiplicative weight updates [97.9457834009578]
乗算重み更新は構成関数に合わせた降下補題を満たすことを示す。
マダムは、学習率のチューニングなしに、最先端のニューラルネットワークアーキテクチャをトレーニングできることを示す。
論文 参考訳(メタデータ) (2020-06-25T17:05:19Z) - Pruned Neural Networks are Surprisingly Modular [9.184659875364689]
多層パーセプトロンに対するモジュラリティの測定可能な概念を導入する。
小型画像のデータセットに基づいて学習したニューラルネットワークのモジュラ構造について検討する。
論文 参考訳(メタデータ) (2020-03-10T17:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。