Fugu-MT 論文翻訳(概要): Grokking modular arithmetic

論文の概要: Grokking modular arithmetic

arxiv url: http://arxiv.org/abs/2301.02679v1
Date: Fri, 6 Jan 2023 19:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 18:21:19.888612
Title: Grokking modular arithmetic
Title（参考訳）: グロキングモジュラー算術
Authors: Andrey Gromov
Abstract要約: モジュラー演算タスクを学習可能な,シンプルなニューラルネットワークを提案する。グルーキング」とよばれる一般化の急激な飛躍を示すネットワークを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a simple neural network that can learn modular arithmetic tasks and exhibits a sudden jump in generalization known as ``grokking''. Concretely, we present (i) fully-connected two-layer networks that exhibit grokking on various modular arithmetic tasks under vanilla gradient descent with the MSE loss function in the absence of any regularization; (ii) evidence that grokking modular arithmetic corresponds to learning specific feature maps whose structure is determined by the task; (iii) analytic expressions for the weights -- and thus for the feature maps -- that solve a large class of modular arithmetic tasks; and (iv) evidence that these feature maps are also found by vanilla gradient descent as well as AdamW, thereby establishing complete interpretability of the representations learnt by the network.
Abstract（参考訳）: モジュラー演算のタスクを学習し,'grokking'と呼ばれる一般化の急激な飛躍を示す,シンプルなニューラルネットワークを提案する。具体的に言えば i) MSE損失関数が正規化されていない場合に、バニラ勾配降下の下で様々なモジュラー演算タスクをグラッキングする完全連結二層ネットワーク。 (二モジュラー算術がタスクによって構造が決定される特定の特徴写像の学習に対応することの証拠。) (iii)多種多様なモジュラー算術タスクを解決する重み(従って特徴写像)の解析式 (4)これらの特徴写像は、AdamWと同様にバニラ勾配降下によっても見出され、ネットワークによって学習された表現の完全な解釈可能性を確立する。

関連論文リスト

DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching [53.39693288324375]
ネットワーク内正規化と関数型マップトレーニングの両方をデータ駆動方式に置き換えることができることを示す。まず、スコアベース生成モデルを用いてスペクトル領域における関数写像の生成モデルを訓練する。次に、得られたモデルを利用して、新しい形状コレクション上の基底真理汎関数写像の構造的特性を促進する。
論文参考訳（メタデータ） (2025-07-31T16:44:54Z)
Characterising the Inductive Biases of Neural Networks on Boolean Data [0.46180371154032906]
我々は,ネットワークの帰納的先行性,特徴学習を含むトレーニングダイナミクス,そしてその最終的な一般化を結びつける,エンドツーエンドで解析的に抽出可能なケーススタディを提供する。モンテカルロ学習アルゴリズムでは,予測可能な学習力学と解釈可能な特徴の出現を示す。
論文参考訳（メタデータ） (2025-05-29T23:03:33Z)
Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文参考訳（メタデータ） (2024-09-09T16:43:09Z)
Grokking Modular Polynomials [5.358878931933351]
解析解のクラスを拡張して、多くの項でモジュラー加法とモジュラー乗法を含める。これらのデータセットでトレーニングされた実ネットワークは、一般化(グロキング)に基づいて類似した解を学ぶことを示す。我々は、ニューラルネットワークのトレーニングを通じて、モジュラーを学習可能で学習不可能に分類する仮説を立てる。
論文参考訳（メタデータ） (2024-06-05T17:59:35Z)
Discovering modular solutions that generalize compositionally [55.46688816816882]
実演から純粋に線形変換までを識別することは、指数関数的な数の加群の組み合わせを学習することなく可能であることを示す。さらに, 有限データからのメタラーニングにより, 多くの複雑な環境において, 構成を一般化するモジュラーポリシが発見可能であることを実証的に実証した。
論文参考訳（メタデータ） (2023-12-22T16:33:50Z)
Randomly Weighted Neuromodulation in Neural Networks Facilitates Learning of Manifolds Common Across Tasks [1.9580473532948401]
幾何知覚ハッシュ関数(Geometric Sensitive Hashing function)は、教師あり学習においてクラス固有の多様体幾何を学ぶニューラルネットワークモデルである。神経変調システムを用いたランダムに重み付けされたニューラルネットワークは,この機能を実現することができることを示す。
論文参考訳（メタデータ） (2023-11-17T15:22:59Z)
Neural Sculpting: Uncovering hierarchically modular task structure in neural networks through pruning and network analysis [8.080026425139708]
階層的なモジュラーニューラルネットワークは、学習効率、一般化、マルチタスク学習、転送などの利点を提供する。本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。
論文参考訳（メタデータ） (2023-05-28T15:12:32Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
A Recursively Recurrent Neural Network (R2N2) Architecture for Learning Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文参考訳（メタデータ） (2022-11-22T16:30:33Z)
Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。 BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文参考訳（メタデータ） (2022-08-22T09:07:02Z)
Clustering units in neural networks: upstream vs downstream information [3.222802562733787]
フィードフォワード全接続ネットワークの隠蔽層表現のモジュラリティについて検討する。 2つの驚くべき結果が得られた: 第一に、ドロップアウトはモジュラリティを劇的に増加させ、他の形態の重み正規化はより穏やかな効果を持っていた。このことは、入力の構造を反映するモジュラー表現を見つけることは、出力の構造を反映するモジュラー表現を学習することとは異なる目標である、という示唆から、表現学習に重要な意味を持つ。
論文参考訳（メタデータ） (2022-03-22T15:35:10Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Neural Function Modules with Sparse Arguments: A Dynamic Approach to Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文参考訳（メタデータ） (2020-10-15T20:43:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。