論文の概要: Grokking Modular Polynomials
- arxiv url: http://arxiv.org/abs/2406.03495v1
- Date: Wed, 5 Jun 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.825770
- Title: Grokking Modular Polynomials
- Title(参考訳): グロッキングモジュラー多項式
- Authors: Darshil Doshi, Tianyu He, Aritra Das, Andrey Gromov,
- Abstract要約: 解析解のクラスを拡張して、多くの項でモジュラー加法とモジュラー乗法を含める。
これらのデータセットでトレーニングされた実ネットワークは、一般化(グロキング)に基づいて類似した解を学ぶことを示す。
我々は、ニューラルネットワークのトレーニングを通じて、モジュラーを学習可能で学習不可能に分類する仮説を立てる。
- 参考スコア(独自算出の注目度): 5.358878931933351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks readily learn a subset of the modular arithmetic tasks, while failing to generalize on the rest. This limitation remains unmoved by the choice of architecture and training strategies. On the other hand, an analytical solution for the weights of Multi-layer Perceptron (MLP) networks that generalize on the modular addition task is known in the literature. In this work, we (i) extend the class of analytical solutions to include modular multiplication as well as modular addition with many terms. Additionally, we show that real networks trained on these datasets learn similar solutions upon generalization (grokking). (ii) We combine these "expert" solutions to construct networks that generalize on arbitrary modular polynomials. (iii) We hypothesize a classification of modular polynomials into learnable and non-learnable via neural networks training; and provide experimental evidence supporting our claims.
- Abstract(参考訳): ニューラルネットワークはモジュラー演算タスクのサブセットを簡単に学習するが、残りは一般化できない。
この制限は、アーキテクチャとトレーニング戦略の選択によって取り除かれたままである。
一方、モジュラ付加タスクを一般化する多層パーセプトロン(MLP)ネットワークの重み解析解が文献で知られている。
この作品では、
i) 解析解のクラスを拡張してモジュラー乗法とモジュラー加法を多くの項で含む。
さらに、これらのデータセットでトレーニングされた実ネットワークは、一般化(グロキング)に基づいて類似した解を学ぶことを示す。
(II) 任意のモジュラー多項式を一般化するネットワークを構築するためにこれらの「エキスパート」解を組み合わせる。
3) ニューラルネットワークのトレーニングにより, モジュラ多項式を学習可能・学習不能に分類し, クレームを裏付ける実験的な証拠を提供する。
関連論文リスト
- Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。
そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文 参考訳(メタデータ) (2024-09-09T16:43:09Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - A Neural Rewriting System to Solve Algorithmic Problems [47.129504708849446]
ネストされた数学的公式を解くための一般的な手順を学習するために設計されたモジュラーアーキテクチャを提案する。
シンボリック人工知能の古典的なフレームワークである書き換えシステムに触発され、アーキテクチャには3つの専門的で対話的なモジュールが含まれます。
我々は、系統的な一般化に特化した最近のモデルであるNeural Data Routerと、先進的なプロンプト戦略で探索された最先端の大規模言語モデル(GPT-4)とを比較した。
論文 参考訳(メタデータ) (2024-02-27T10:57:07Z) - Discovering modular solutions that generalize compositionally [55.46688816816882]
実演から純粋に線形変換までを識別することは、指数関数的な数の加群の組み合わせを学習することなく可能であることを示す。
さらに, 有限データからのメタラーニングにより, 多くの複雑な環境において, 構成を一般化するモジュラーポリシが発見可能であることを実証的に実証した。
論文 参考訳(メタデータ) (2023-12-22T16:33:50Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Grokking modular arithmetic [0.0]
モジュラー演算タスクを学習可能な,シンプルなニューラルネットワークを提案する。
グルーキング」とよばれる一般化の急激な飛躍を示すネットワークを示す。
論文 参考訳(メタデータ) (2023-01-06T19:00:01Z) - Is a Modular Architecture Enough? [80.32451720642209]
我々は、シンプルで既知のモジュラーデータ分散のレンズを通して、共通のモジュラーアーキテクチャを徹底的に評価する。
モジュール化と疎結合のメリットを強調し、モジュール化システムの最適化において直面する課題に関する洞察を明らかにします。
論文 参考訳(メタデータ) (2022-06-06T16:12:06Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Are Neural Nets Modular? Inspecting Functional Modularity Through
Differentiable Weight Masks [10.0444013205203]
NNがモジュール化されているかどうか、どのように改善するかを理解することはできる。
しかし、現在の検査方法は、モジュールを機能にリンクすることができない。
論文 参考訳(メタデータ) (2020-10-05T15:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。