Fugu-MT 論文翻訳(概要): Grokking Group Multiplication with Cosets

論文の概要: Grokking Group Multiplication with Cosets

arxiv url: http://arxiv.org/abs/2312.06581v1
Date: Mon, 11 Dec 2023 18:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 14:30:52.701921
Title: Grokking Group Multiplication with Cosets
Title（参考訳）: コセットを用いたグロッキング群乗法
Authors: Dashiell Stander and Qinan Yu and Honglu Fan and Stella Biderman
Abstract要約: 1層フィードフォワードネットワークをリバースエンジニアリングし、$S_5$と$S_6$の乗算を"グロッキング"します。我々は,データとモデルの対称性を用いて,それらのメカニズムを理解し,コセット回路をホールドアップする価値を実証する。」
参考スコア（独自算出の注目度）: 11.002834318280552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We use the group Fourier transform over the symmetric group $S_n$ to reverse engineer a 1-layer feedforward network that has "grokked" the multiplication of $S_5$ and $S_6$. Each model discovers the true subgroup structure of the full group and converges on circuits that decompose the group multiplication into the multiplication of the group's conjugate subgroups. We demonstrate the value of using the symmetries of the data and models to understand their mechanisms and hold up the ``coset circuit'' that the model uses as a fascinating example of the way neural networks implement computations. We also draw attention to current challenges in conducting mechanistic interpretability research by comparing our work to Chughtai et al. [6] which alleges to find a different algorithm for this same problem.
Abstract（参考訳）: 対称群 $s_n$ 上の群フーリエ変換を用いて、1層フィードフォワードネットワークをリバースエンジニアリングし、$s_5$ と $s_6$ を乗算した。各モデルは全群の真の部分群構造を発見し、群の乗法を群の共役部分群の乗法に分解する回路上に収束する。データとモデルの対称性を使って、それらのメカニズムを理解し、モデルがニューラルネットワークの計算の実装方法の興味深い例として使用する ``coset circuit''' を保持する価値を実証する。また,本研究をChughtaiらと比較することにより,機械論的解釈可能性研究の課題にも注目する。同じ問題に対して別のアルゴリズムを見つけるように要求する[6]。

関連論文リスト

On the algorithmic construction of deep ReLU networks [0.0]
我々はニューラルネットワークをアルゴリズムとして捉えている。このアナロジーでは、ニューラルネットワークはデータから訓練されるのではなく、構築的にプログラムされる。既存の例と新しい例の両方を構築し,分析する。
論文参考訳（メタデータ） (2025-06-23T20:35:52Z)
Uncovering a Universal Abstract Algorithm for Modular Addition in Neural Networks [29.838715657292365]
モジュラ付加の単純なタスクで観測されたニューラルネットワークソリューションは、共通の抽象アルゴリズムの下で統一されていることを示す。我々の理論はディープニューラルネットワーク(DNN)に当てはまるトレーニング可能な埋め込みまたは複数の隠蔽層を持つDNNにおける普遍的に学習された解は、O(log n)機能のみを必要とすると予測する。
論文参考訳（メタデータ） (2025-05-23T18:02:46Z)
Generating Interpretable Networks using Hypernetworks [16.876961991785507]
我々は、ハイパーネットワークを用いて、基盤となるアルゴリズムがまだ分かっていない解釈可能なネットワークを生成する可能性を探る。 L1ノルムを計算するタスクでは、ハイパーネットワークスは3つのアルゴリズムを見つける: (a) 両面アルゴリズム、 (b) 凸性アルゴリズム、 (c) プリンアルゴリズム。訓練されたハイパーネットワークは、トレーニングで見えない入力次元のモデルを正しく構築でき、体系的な一般化を実証できることを示す。
論文参考訳（メタデータ） (2023-12-05T18:55:32Z)
The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文参考訳（メタデータ） (2023-06-30T17:59:13Z)
A Toy Model of Universality: Reverse Engineering How Networks Learn Group Operations [0.0]
我々は,小人数のニューラルネットワークが集団構成の実装をどのように学習するかを検討することによって,普遍性仮説を検証した。本稿では,ニューラルネットワークが任意の有限群の合成を数学的表現理論によって実装できる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-06T18:59:20Z)
Robust Training and Verification of Implicit Neural Networks: A Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。 MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文参考訳（メタデータ） (2022-08-08T03:13:24Z)
The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文参考訳（メタデータ） (2021-07-31T10:25:26Z)
A Practical Method for Constructing Equivariant Multilayer Perceptrons for Arbitrary Matrix Groups [115.58550697886987]
行列群の同変層を解くための完全一般的なアルゴリズムを提供する。他作品からのソリューションを特殊ケースとして回収するだけでなく、これまで取り組んだことのない複数のグループと等価な多層パーセプトロンを構築します。提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。
論文参考訳（メタデータ） (2021-04-19T17:21:54Z)
Neural Contextual Bandits with Deep Representation and Shallow Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文参考訳（メタデータ） (2020-12-03T09:17:55Z)
Neural Group Actions [0.0]
本稿では、与えられた有限群の法則を満たす対称変換をモデル化するディープニューラルネットワークアーキテクチャの集合であるニューラル・グループ・アクションを設計するアルゴリズムを提案する。実験により、四元数群$Q_8$に対するニューラル群作用が、Q_8$群法則を満たす非普遍量子ゲートの集合が単一量子ビット量子状態に対してどのように作用するかを学習できることを示した。
論文参考訳（メタデータ） (2020-10-08T02:27:05Z)
Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文参考訳（メタデータ） (2020-10-02T07:44:09Z)
Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文参考訳（メタデータ） (2020-07-30T23:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。