論文の概要: Acceleration of Grokking in Learning Arithmetic Operations via Kolmogorov-Arnold Representation
- arxiv url: http://arxiv.org/abs/2405.16658v1
- Date: Sun, 26 May 2024 18:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:15.984780
- Title: Acceleration of Grokking in Learning Arithmetic Operations via Kolmogorov-Arnold Representation
- Title(参考訳): Kolmogorov-Arnold表現による算数演算学習におけるグロッキングの高速化
- Authors: Yeachan Park, Minseok Kim, Yeoneung Kim,
- Abstract要約: 本稿では,変圧器モデルによる算術二項演算の学習において発生するグルーキング現象に着目した。
グラッキングを高速化する様々な伝達学習機構を提案する。
- 参考スコア(独自算出の注目度): 3.7812707887425048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose novel methodologies aimed at accelerating the grokking phenomenon, which refers to the rapid increment of test accuracy after a long period of overfitting as reported in~\cite{power2022grokking}. Focusing on the grokking phenomenon that arises in learning arithmetic binary operations via the transformer model, we begin with a discussion on data augmentation in the case of commutative binary operations. To further accelerate, we elucidate arithmetic operations through the lens of the Kolmogorov-Arnold (KA) representation theorem, revealing its correspondence to the transformer architecture: embedding, decoder block, and classifier. Observing the shared structure between KA representations associated with binary operations, we suggest various transfer learning mechanisms that expedite grokking. This interpretation is substantiated through a series of rigorous experiments. In addition, our approach is successful in learning two nonstandard arithmetic tasks: composition of operations and a system of equations. Furthermore, we reveal that the model is capable of learning arithmetic operations using a limited number of tokens under embedding transfer, which is supported by a set of experiments as well.
- Abstract(参考訳): 本稿では,グルーキング現象の加速を目的とした新しい手法を提案する。
変圧器モデルによる算術二項演算の学習において発生するグルーキング現象に着目し,可換二項演算の場合のデータ増大に関する議論から始める。
さらに加速するために、Kolmogorov-Arnold(KA)表現定理のレンズを通して算術演算を解明し、その変換器アーキテクチャ(埋め込み、デコーダブロック、分類器)への対応を明らかにする。
二項演算に関連するKA表現間の共有構造を観察し、グラッキングを高速化する様々な移動学習機構を提案する。
この解釈は一連の厳密な実験によって裏付けられている。
さらに,本手法は,演算の合成と方程式の体系という,2つの非標準算術的タスクの学習に成功している。
さらに,本モデルでは,埋め込み転送において限られた数のトークンを用いて算術演算を学習可能であることも明らかにした。
関連論文リスト
- EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Abelian Neural Networks [48.52497085313911]
まず、アベリア群演算のためのニューラルネットワークアーキテクチャを構築し、普遍近似特性を導出する。
連想対称の特徴づけを用いて、アベリア半群演算に拡張する。
固定単語埋め込み上でモデルをトレーニングし、元の word2vec よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-24T11:52:21Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z) - Lattice Representation Learning [6.427169570069738]
ユークリッド空間に埋め込まれた格子を利用する離散表現を学習するための理論とアルゴリズムを導入する。
格子表現は興味深い性質の組み合わせを持つ:a) 格子量子化を用いて明示的に計算できるが、導入したアイデアを使って効率的に学習することができる。
この記事では、トレーニングや推論時間に使用される式をリンクする新しい数学的結果や、2つの一般的なデータセットに対する実験的な検証など、最初の2つの特性を探索し、活用するための基盤の整備に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-24T16:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。