論文の概要: Grokking modular arithmetic
- arxiv url: http://arxiv.org/abs/2301.02679v1
- Date: Fri, 6 Jan 2023 19:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:21:19.888612
- Title: Grokking modular arithmetic
- Title(参考訳): グロキングモジュラー算術
- Authors: Andrey Gromov
- Abstract要約: モジュラー演算タスクを学習可能な,シンプルなニューラルネットワークを提案する。
グルーキング」とよばれる一般化の急激な飛躍を示すネットワークを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple neural network that can learn modular arithmetic tasks
and exhibits a sudden jump in generalization known as ``grokking''. Concretely,
we present (i) fully-connected two-layer networks that exhibit grokking on
various modular arithmetic tasks under vanilla gradient descent with the MSE
loss function in the absence of any regularization; (ii) evidence that grokking
modular arithmetic corresponds to learning specific feature maps whose
structure is determined by the task; (iii) analytic expressions for the weights
-- and thus for the feature maps -- that solve a large class of modular
arithmetic tasks; and (iv) evidence that these feature maps are also found by
vanilla gradient descent as well as AdamW, thereby establishing complete
interpretability of the representations learnt by the network.
- Abstract(参考訳): モジュラー演算のタスクを学習し,'grokking'と呼ばれる一般化の急激な飛躍を示す,シンプルなニューラルネットワークを提案する。
具体的に言えば
i) MSE損失関数が正規化されていない場合に、バニラ勾配降下の下で様々なモジュラー演算タスクをグラッキングする完全連結二層ネットワーク。
(二 モジュラー算術がタスクによって構造が決定される特定の特徴写像の学習に対応することの証拠。)
(iii)多種多様なモジュラー算術タスクを解決する重み(従って特徴写像)の解析式
(4)これらの特徴写像は、AdamWと同様にバニラ勾配降下によっても見出され、ネットワークによって学習された表現の完全な解釈可能性を確立する。
関連論文リスト
- Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。
そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文 参考訳(メタデータ) (2024-09-09T16:43:09Z) - Grokking Modular Polynomials [5.358878931933351]
解析解のクラスを拡張して、多くの項でモジュラー加法とモジュラー乗法を含める。
これらのデータセットでトレーニングされた実ネットワークは、一般化(グロキング)に基づいて類似した解を学ぶことを示す。
我々は、ニューラルネットワークのトレーニングを通じて、モジュラーを学習可能で学習不可能に分類する仮説を立てる。
論文 参考訳(メタデータ) (2024-06-05T17:59:35Z) - Discovering modular solutions that generalize compositionally [55.46688816816882]
実演から純粋に線形変換までを識別することは、指数関数的な数の加群の組み合わせを学習することなく可能であることを示す。
さらに, 有限データからのメタラーニングにより, 多くの複雑な環境において, 構成を一般化するモジュラーポリシが発見可能であることを実証的に実証した。
論文 参考訳(メタデータ) (2023-12-22T16:33:50Z) - Randomly Weighted Neuromodulation in Neural Networks Facilitates
Learning of Manifolds Common Across Tasks [1.9580473532948401]
幾何知覚ハッシュ関数(Geometric Sensitive Hashing function)は、教師あり学習においてクラス固有の多様体幾何を学ぶニューラルネットワークモデルである。
神経変調システムを用いたランダムに重み付けされたニューラルネットワークは,この機能を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-17T15:22:59Z) - Neural Sculpting: Uncovering hierarchically modular task structure in
neural networks through pruning and network analysis [8.080026425139708]
階層的なモジュラーニューラルネットワークは、学習効率、一般化、マルチタスク学習、転送などの利点を提供する。
本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-05-28T15:12:32Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Clustering units in neural networks: upstream vs downstream information [3.222802562733787]
フィードフォワード全接続ネットワークの隠蔽層表現のモジュラリティについて検討する。
2つの驚くべき結果が得られた: 第一に、ドロップアウトはモジュラリティを劇的に増加させ、他の形態の重み正規化はより穏やかな効果を持っていた。
このことは、入力の構造を反映するモジュラー表現を見つけることは、出力の構造を反映するモジュラー表現を学習することとは異なる目標である、という示唆から、表現学習に重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-22T15:35:10Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。