Fugu-MT 論文翻訳(概要): Fourier Circuits in Neural Networks: Unlocking the Potential of Large Language Models in Mathematical Reasoning and Modular Arithmetic

論文の概要: Fourier Circuits in Neural Networks: Unlocking the Potential of Large Language Models in Mathematical Reasoning and Modular Arithmetic

arxiv url: http://arxiv.org/abs/2402.09469v2
Date: Fri, 24 May 2024 07:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 23:07:01.650118
Title: Fourier Circuits in Neural Networks: Unlocking the Potential of Large Language Models in Mathematical Reasoning and Modular Arithmetic
Title（参考訳）: ニューラルネットワークにおけるフーリエ回路:数学的推論とモジュラー算術における大規模言語モデルのポテンシャルを解き放つ
Authors: Jiuxiang Gu, Chenyang Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Tianyi Zhou,
Abstract要約: 本稿では,特定の計算戦略を採用するネットワークの背景となる要因について検討する。一層ニューラルネットワークと一層トランスフォーマーについて述べる。一層トランスフォーマー研究の注目点として,同様の計算機構を考察する。
参考スコア（独自算出の注目度）: 44.730623263017826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the evolving landscape of machine learning, a pivotal challenge lies in deciphering the internal representations harnessed by neural networks and Transformers. Building on recent progress toward comprehending how networks execute distinct target functions, our study embarks on an exploration of the underlying reasons behind networks adopting specific computational strategies. We direct our focus to the complex algebraic learning task of modular addition involving $k$ inputs. Our research presents a thorough analytical characterization of the features learned by stylized one-hidden layer neural networks and one-layer Transformers in addressing this task. A cornerstone of our theoretical framework is the elucidation of how the principle of margin maximization shapes the features adopted by one-hidden layer neural networks. Let $p$ denote the modulus, $D_p$ denote the dataset of modular arithmetic with $k$ inputs and $m$ denote the network width. We demonstrate that a neuron count of $ m \geq 2^{2k-2} \cdot (p-1) $, these networks attain a maximum $ L_{2,k+1} $-margin on the dataset $ D_p $. Furthermore, we establish that each hidden-layer neuron aligns with a specific Fourier spectrum, integral to solving modular addition problems. By correlating our findings with the empirical observations of similar studies, we contribute to a deeper comprehension of the intrinsic computational mechanisms of neural networks. Furthermore, we observe similar computational mechanisms in the attention matrix of the one-layer Transformer. This research stands as a significant stride in unraveling their operation complexities, particularly in the realm of complex algebraic tasks.
Abstract（参考訳）: 機械学習の進化の展望では、ニューラルネットワークとトランスフォーマーが利用する内部表現の解読に重要な課題がある。本研究は,ネットワークがターゲット関数をどう実行するかを理解するための最近の進歩に基づいて,特定の計算戦略を採用するネットワークの背後にある理由を探究する。我々は、$k$入力を含むモジュラー加算の複雑な代数的学習タスクに焦点をあてる。本研究は,この課題に対処する一層ニューラルネットワークと一層トランスフォーマーによって学習された特徴を網羅的に分析した。理論的枠組みの要点は、マージンの最大化原理が1つの隠れ層ニューラルネットワークで採用される特徴をどのように形成するかを解明することである。 p$ は modulus を表し、$D_p$ は $k$ 入力を持つモジュラー演算のデータセットを表し、$m$ はネットワーク幅を表す。ニューロンの数が$ m \geq 2^{2k-2} \cdot (p-1) $ であることを示し、これらのネットワークはデータセット $ D_p $ 上で最大 L_{2,k+1} $-margin を得る。さらに、各隠れ層ニューロンは特定のフーリエスペクトルと整合し、モジュラー加算問題を解くのに不可欠であることを示す。この知見と類似した研究の経験的観察とを関連づけることで,ニューラルネットワークの本質的な計算機構のより深い理解に寄与する。さらに,1層トランスの注目行列において,同様の計算機構を観察する。この研究は、特に複素代数的タスクの領域において、それらの演算複雑性を解き放つための重要な一歩である。

関連論文リスト

FACT: the Features At Convergence Theorem for neural networks [11.578851413831247]
非ゼロウェイト崩壊の訓練において,ニューラルネットワークの重みが収束時に満足する自己整合方程式を与えるコンバージェンス定理 (FACT) の特徴を証明した。我々はこの関係を実証的に検証し、神経的特徴が収束時のFACTを本当に満足していることを示した。 Radhakrishnanらの"Recursive Feature Machines"を修正して、FACTに従うようにすることで、新しい学習アルゴリズムであるFACT-RFMにたどり着く。
論文参考訳（メタデータ） (2025-07-08T03:52:48Z)
Unveiling the Potential of Superexpressive Networks in Implicit Neural Representations [23.561956415242584]
「超表現ネットワークは、幅、深さ、高さの付加次元を特徴とする特化されたネットワーク構造を用いる。」超表現的ネットワークは、高特殊化非線形アクティベーション関数を用いた近年の暗黙的ニューラル表現を超越することができることを示す。
論文参考訳（メタデータ） (2025-03-27T05:36:12Z)
Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-18T18:01:01Z)
A unified Fourier slice method to derive ridgelet transform for a variety of depth-2 neural networks [14.45619075342763]
リッジレット変換は、与えられた関数$f$をパラメータ分布$gamma$にマッピングする擬逆演算子である。ユークリッド空間上のディープ2完全連結ネットワークに対して、リッジレット変換は閉形式表現まで発見されている。有限体 $mathbbF_p$ 上のネットワーク、抽象ヒルベルト空間 $mathcalH$ 上の群畳み込みネットワーク、非コンパクト対称空間 $G/K$ 上の完全連結ネットワーク、プーリング層など、様々な現代的なネットワークに対して変換を導出する。
論文参考訳（メタデータ） (2024-02-25T04:30:04Z)
Feature emergence via margin maximization: case studies in algebraic tasks [4.401622714202886]
訓練されたニューラルネットワークは、一般群における合成を行うために、既約群理論表現に対応する特徴を用いることを示す。より一般的に、私たちの技術が、ニューラルネットワークが特定の計算戦略を採用する理由のより深い理解を促進するのに役立つことを願っています。
論文参考訳（メタデータ） (2023-11-13T18:56:33Z)
Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文参考訳（メタデータ） (2023-06-24T10:21:11Z)
Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文参考訳（メタデータ） (2023-02-27T18:52:38Z)
Exploring the Approximation Capabilities of Multiplicative Neural Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文参考訳（メタデータ） (2023-01-11T17:57:33Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Optimal Approximation with Sparse Neural Networks and Applications [0.0]
深い疎結合ニューラルネットワークを用いて、関数クラスの複雑性を$L(mathbb Rd)$で測定する。また、ニューラルネットワークを誘導する関数の可算コレクションである表現システムについても紹介する。次に、レート歪曲理論とウェッジレット構成を用いて、$beta$マンガ的関数と呼ばれるクラスの複雑性を分析する。
論文参考訳（メタデータ） (2021-08-14T05:14:13Z)
A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文参考訳（メタデータ） (2021-04-29T14:31:09Z)
Connecting Weighted Automata, Tensor Networks and Recurrent Neural Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-19T15:28:00Z)
A Computationally Efficient Neural Network Invariant to the Action of Symmetry Subgroups [12.654871396334668]
新しい$G$不変変換モジュールは入力データの$G$不変潜在表現を生成する。この潜在表現は、ネットワーク内の多層パーセプトロンで処理される。提案するアーキテクチャの普遍性を証明し,その特性を議論し,計算とメモリ効率を強調する。
論文参考訳（メタデータ） (2020-02-18T12:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。