論文の概要: Grokking Group Multiplication with Cosets
- arxiv url: http://arxiv.org/abs/2312.06581v1
- Date: Mon, 11 Dec 2023 18:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:30:52.701921
- Title: Grokking Group Multiplication with Cosets
- Title(参考訳): コセットを用いたグロッキング群乗法
- Authors: Dashiell Stander and Qinan Yu and Honglu Fan and Stella Biderman
- Abstract要約: 1層フィードフォワードネットワークをリバースエンジニアリングし、$S_5$と$S_6$の乗算を"グロッキング"します。
我々は,データとモデルの対称性を用いて,それらのメカニズムを理解し,コセット回路をホールドアップする価値を実証する。」
- 参考スコア(独自算出の注目度): 11.002834318280552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use the group Fourier transform over the symmetric group $S_n$ to reverse
engineer a 1-layer feedforward network that has "grokked" the multiplication of
$S_5$ and $S_6$. Each model discovers the true subgroup structure of the full
group and converges on circuits that decompose the group multiplication into
the multiplication of the group's conjugate subgroups. We demonstrate the value
of using the symmetries of the data and models to understand their mechanisms
and hold up the ``coset circuit'' that the model uses as a fascinating example
of the way neural networks implement computations. We also draw attention to
current challenges in conducting mechanistic interpretability research by
comparing our work to Chughtai et al. [6] which alleges to find a different
algorithm for this same problem.
- Abstract(参考訳): 対称群 $s_n$ 上の群フーリエ変換を用いて、1層フィードフォワードネットワークをリバースエンジニアリングし、$s_5$ と $s_6$ を乗算した。
各モデルは全群の真の部分群構造を発見し、群の乗法を群の共役部分群の乗法に分解する回路上に収束する。
データとモデルの対称性を使って、それらのメカニズムを理解し、モデルがニューラルネットワークの計算の実装方法の興味深い例として使用する ``coset circuit''' を保持する価値を実証する。
また,本研究をChughtaiらと比較することにより,機械論的解釈可能性研究の課題にも注目する。
同じ問題に対して別のアルゴリズムを見つけるように要求する[6]。
関連論文リスト
- Generating Interpretable Networks using Hypernetworks [16.876961991785507]
我々は、ハイパーネットワークを用いて、基盤となるアルゴリズムがまだ分かっていない解釈可能なネットワークを生成する可能性を探る。
L1ノルムを計算するタスクでは、ハイパーネットワークスは3つのアルゴリズムを見つける: (a) 両面アルゴリズム、 (b) 凸性アルゴリズム、 (c) プリンアルゴリズム。
訓練されたハイパーネットワークは、トレーニングで見えない入力次元のモデルを正しく構築でき、体系的な一般化を実証できることを示す。
論文 参考訳(メタデータ) (2023-12-05T18:55:32Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - A Toy Model of Universality: Reverse Engineering How Networks Learn
Group Operations [0.0]
我々は,小人数のニューラルネットワークが集団構成の実装をどのように学習するかを検討することによって,普遍性仮説を検証した。
本稿では,ニューラルネットワークが任意の有限群の合成を数学的表現理論によって実装できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:59:20Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - A Practical Method for Constructing Equivariant Multilayer Perceptrons
for Arbitrary Matrix Groups [115.58550697886987]
行列群の同変層を解くための完全一般的なアルゴリズムを提供する。
他作品からのソリューションを特殊ケースとして回収するだけでなく、これまで取り組んだことのない複数のグループと等価な多層パーセプトロンを構築します。
提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。
論文 参考訳(メタデータ) (2021-04-19T17:21:54Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Group Actions [0.0]
本稿では、与えられた有限群の法則を満たす対称変換をモデル化するディープニューラルネットワークアーキテクチャの集合であるニューラル・グループ・アクションを設計するアルゴリズムを提案する。
実験により、四元数群$Q_8$に対するニューラル群作用が、Q_8$群法則を満たす非普遍量子ゲートの集合が単一量子ビット量子状態に対してどのように作用するかを学習できることを示した。
論文 参考訳(メタデータ) (2020-10-08T02:27:05Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。
さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文 参考訳(メタデータ) (2020-07-30T23:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。