論文の概要: A Toy Model of Universality: Reverse Engineering How Networks Learn
Group Operations
- arxiv url: http://arxiv.org/abs/2302.03025v1
- Date: Mon, 6 Feb 2023 18:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:16:17.766069
- Title: A Toy Model of Universality: Reverse Engineering How Networks Learn
Group Operations
- Title(参考訳): 普遍性のトイモデル:ネットワークがグループ操作を学習する方法のリバースエンジニアリング
- Authors: Bilal Chughtai, Lawrence Chan, Neel Nanda
- Abstract要約: 我々は,小人数のニューラルネットワークが集団構成の実装をどのように学習するかを検討することによって,普遍性仮説を検証した。
本稿では,ニューラルネットワークが任意の有限群の合成を数学的表現理論によって実装できる新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universality is a key hypothesis in mechanistic interpretability -- that
different models learn similar features and circuits when trained on similar
tasks. In this work, we study the universality hypothesis by examining how
small neural networks learn to implement group composition. We present a novel
algorithm by which neural networks may implement composition for any finite
group via mathematical representation theory. We then show that networks
consistently learn this algorithm by reverse engineering model logits and
weights, and confirm our understanding using ablations. By studying networks of
differing architectures trained on various groups, we find mixed evidence for
universality: using our algorithm, we can completely characterize the family of
circuits and features that networks learn on this task, but for a given network
the precise circuits learned -- as well as the order they develop -- are
arbitrary.
- Abstract(参考訳): Universality is a key hypothesis in mechanistic interpretability -- that different models learn similar features and circuits when trained on similar tasks. In this work, we study the universality hypothesis by examining how small neural networks learn to implement group composition. We present a novel algorithm by which neural networks may implement composition for any finite group via mathematical representation theory. We then show that networks consistently learn this algorithm by reverse engineering model logits and weights, and confirm our understanding using ablations. By studying networks of differing architectures trained on various groups, we find mixed evidence for universality: using our algorithm, we can completely characterize the family of circuits and features that networks learn on this task, but for a given network the precise circuits learned -- as well as the order they develop -- are arbitrary.
関連論文リスト
- Grokking Group Multiplication with Cosets [10.255744802963926]
アルゴリズムタスクは、ニューラルネットワークをエンドツーエンドに解釈するための実りあるテスト場であることが証明されている。
我々は、置換群$S_5$ と $S_6$ の算術を解き明かした一層ネットワークを完全にリバースエンジニアリングする。
我々は、モデル機構のリバースエンジニアリングについて述べ、我々の理論が回路の機能の忠実な記述であることを確認した。
論文 参考訳(メタデータ) (2023-12-11T18:12:18Z) - Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - Feature emergence via margin maximization: case studies in algebraic
tasks [4.401622714202886]
訓練されたニューラルネットワークは、一般群における合成を行うために、既約群理論表現に対応する特徴を用いることを示す。
より一般的に、私たちの技術が、ニューラルネットワークが特定の計算戦略を採用する理由のより深い理解を促進するのに役立つことを願っています。
論文 参考訳(メタデータ) (2023-11-13T18:56:33Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - The Neural Race Reduction: Dynamics of Abstraction in Gated Networks [12.130628846129973]
本稿では,情報フローの経路が学習力学に与える影響をスキーマ化するGated Deep Linear Networkフレームワークを紹介する。
正確な還元と、特定の場合において、学習のダイナミクスに対する正確な解が導出されます。
我々の研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチを提供する。
論文 参考訳(メタデータ) (2022-07-21T12:01:03Z) - Quasi-orthogonality and intrinsic dimensions as measures of learning and
generalisation [55.80128181112308]
ニューラルネットワークの特徴空間の次元性と準直交性は、ネットワークの性能差別と共同して機能する可能性があることを示す。
本研究は, ネットワークの最終的な性能と, ランダムに初期化された特徴空間の特性との関係を示唆する。
論文 参考訳(メタデータ) (2022-03-30T21:47:32Z) - Learning Dynamics and Structure of Complex Systems Using Graph Neural
Networks [13.509027957413409]
我々は、非線形力学系の例から時系列に適合するようにグラフニューラルネットワークを訓練した。
学習した表現とモデルコンポーネントの簡単な解釈を見出した。
我々は,信念伝達における統計的相互作用と,それに対応する学習ネットワークのパラメータ間のグラフトランスレータの同定に成功した。
論文 参考訳(メタデータ) (2022-02-22T15:58:16Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Emergence of Network Motifs in Deep Neural Networks [0.35911228556176483]
ニューラルネットワークの研究にネットワークサイエンスツールをうまく応用できることが示される。
特に,マルチ層パーセプトロンにおけるネットワークモチーフの出現について検討する。
論文 参考訳(メタデータ) (2019-12-27T17:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。