論文の概要: Grokking Group Multiplication with Cosets
- arxiv url: http://arxiv.org/abs/2312.06581v2
- Date: Mon, 17 Jun 2024 17:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 09:12:15.830964
- Title: Grokking Group Multiplication with Cosets
- Title(参考訳): コセットによるグロキング群乗法
- Authors: Dashiell Stander, Qinan Yu, Honglu Fan, Stella Biderman,
- Abstract要約: アルゴリズムタスクは、ニューラルネットワークをエンドツーエンドに解釈するための実りあるテスト場であることが証明されている。
我々は、置換群$S_5$ と $S_6$ の算術を解き明かした一層ネットワークを完全にリバースエンジニアリングする。
我々は、モデル機構のリバースエンジニアリングについて述べ、我々の理論が回路の機能の忠実な記述であることを確認した。
- 参考スコア(独自算出の注目度): 10.255744802963926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complex and unpredictable nature of deep neural networks prevents their safe use in many high-stakes applications. There have been many techniques developed to interpret deep neural networks, but all have substantial limitations. Algorithmic tasks have proven to be a fruitful test ground for interpreting a neural network end-to-end. Building on previous work, we completely reverse engineer fully connected one-hidden layer networks that have ``grokked'' the arithmetic of the permutation groups $S_5$ and $S_6$. The models discover the true subgroup structure of the full group and converge on neural circuits that decompose the group arithmetic using the permutation group's subgroups. We relate how we reverse engineered the model's mechanisms and confirmed our theory was a faithful description of the circuit's functionality. We also draw attention to current challenges in conducting interpretability research by comparing our work to Chughtai et al. [4] which alleges to find a different algorithm for this same problem.
- Abstract(参考訳): ディープニューラルネットワークの複雑で予測不可能な性質は、多くのハイテイクなアプリケーションで安全な使用を妨げている。
ディープニューラルネットワークを解釈するために開発されたテクニックは数多くあるが、いずれもかなりの制限がある。
アルゴリズムタスクは、ニューラルネットワークをエンドツーエンドに解釈するための実りあるテスト場であることが証明されている。
以前の研究に基づいて、置換群$S_5$と$S_6$の算術的な 'grokked'' を持つ1つの隠れた層ネットワークを完全にリバースエンジニアリングしました。
モデルは全群の真の部分群構造を発見し、置換群の部分群を用いて群演算を分解するニューラルネットワークに収束する。
我々は,モデル機構のリバースエンジニアリングについて考察し,この理論が回路の機能の忠実な記述であることを確認した。
また,本研究をChughtai et al [4]と比較することで,解釈可能性研究における現在の課題にも注意を払っている。
関連論文リスト
- Generating Interpretable Networks using Hypernetworks [16.876961991785507]
我々は、ハイパーネットワークを用いて、基盤となるアルゴリズムがまだ分かっていない解釈可能なネットワークを生成する可能性を探る。
L1ノルムを計算するタスクでは、ハイパーネットワークスは3つのアルゴリズムを見つける: (a) 両面アルゴリズム、 (b) 凸性アルゴリズム、 (c) プリンアルゴリズム。
訓練されたハイパーネットワークは、トレーニングで見えない入力次元のモデルを正しく構築でき、体系的な一般化を実証できることを示す。
論文 参考訳(メタデータ) (2023-12-05T18:55:32Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - A Toy Model of Universality: Reverse Engineering How Networks Learn
Group Operations [0.0]
我々は,小人数のニューラルネットワークが集団構成の実装をどのように学習するかを検討することによって,普遍性仮説を検証した。
本稿では,ニューラルネットワークが任意の有限群の合成を数学的表現理論によって実装できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:59:20Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - A Practical Method for Constructing Equivariant Multilayer Perceptrons
for Arbitrary Matrix Groups [115.58550697886987]
行列群の同変層を解くための完全一般的なアルゴリズムを提供する。
他作品からのソリューションを特殊ケースとして回収するだけでなく、これまで取り組んだことのない複数のグループと等価な多層パーセプトロンを構築します。
提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。
論文 参考訳(メタデータ) (2021-04-19T17:21:54Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Group Actions [0.0]
本稿では、与えられた有限群の法則を満たす対称変換をモデル化するディープニューラルネットワークアーキテクチャの集合であるニューラル・グループ・アクションを設計するアルゴリズムを提案する。
実験により、四元数群$Q_8$に対するニューラル群作用が、Q_8$群法則を満たす非普遍量子ゲートの集合が単一量子ビット量子状態に対してどのように作用するかを学習できることを示した。
論文 参考訳(メタデータ) (2020-10-08T02:27:05Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。
さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文 参考訳(メタデータ) (2020-07-30T23:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。