論文の概要: Emergent Modularity in Pre-trained Transformers
- arxiv url: http://arxiv.org/abs/2305.18390v2
- Date: Mon, 30 Oct 2023 07:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:19:28.491685
- Title: Emergent Modularity in Pre-trained Transformers
- Title(参考訳): 予習変圧器における創発的モジュラリティ
- Authors: Zhengyan Zhang, Zhiyuan Zeng, Yankai Lin, Chaojun Xiao, Xiaozhi Wang,
Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou
- Abstract要約: モジュラリティの主な特徴は、ニューロンの機能的特殊化と機能に基づくニューロングループ化である。
事前学習中にモジュラリティがどのように出現するかを調べた結果,モジュール構造が早期に安定していることが判明した。
このことはトランスフォーマーがまずモジュラ構造を構築し、次にきめ細かいニューロン関数を学ぶことを示唆している。
- 参考スコア(独自算出の注目度): 127.08792763817496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the presence of modularity in pre-trained Transformers, a
feature commonly found in human brains and thought to be vital for general
intelligence. In analogy to human brains, we consider two main characteristics
of modularity: (1) functional specialization of neurons: we evaluate whether
each neuron is mainly specialized in a certain function, and find that the
answer is yes. (2) function-based neuron grouping: we explore finding a
structure that groups neurons into modules by function, and each module works
for its corresponding function. Given the enormous amount of possible
structures, we focus on Mixture-of-Experts as a promising candidate, which
partitions neurons into experts and usually activates different experts for
different inputs. Experimental results show that there are functional experts,
where clustered are the neurons specialized in a certain function. Moreover,
perturbing the activations of functional experts significantly affects the
corresponding function. Finally, we study how modularity emerges during
pre-training, and find that the modular structure is stabilized at the early
stage, which is faster than neuron stabilization. It suggests that Transformers
first construct the modular structure and then learn fine-grained neuron
functions. Our code and data are available at
https://github.com/THUNLP/modularity-analysis.
- Abstract(参考訳): この研究は、人間の脳によく見られる特徴であり、汎用知能に欠かせない機能である、事前訓練されたトランスフォーマーにおけるモジュラリティの存在を調べる。
1)ニューロンの機能的特殊化:各ニューロンが主に特定の機能に特化しているかどうかを評価し,その答えがイエスであることを確かめる。
2) 機能に基づくニューロングループ化: 機能によってニューロンをモジュールに分類する構造を探索し, 各モジュールが対応する機能のために機能する。
考えられる膨大な量の構造を考えると、我々は期待できる候補としてMixture-of-Expertsに注目し、ニューロンを専門家に分割し、通常異なる入力に対して異なる専門家を活性化する。
実験の結果,特定の機能に特化しているニューロンがクラスター化されている機能の専門家がいることがわかった。
さらに、機能専門家のアクティベーションの摂動は、対応する機能に大きく影響する。
最後に,事前学習中にモジュール構造がどのように出現するかを調べ,モジュール構造が早期に安定化し,ニューロン安定化よりも高速であることが判明した。
トランスフォーマーはまずモジュール構造を構築し、次に細粒度のニューロン機能を学ぶことを示唆する。
コードとデータはhttps://github.com/THUNLP/modularity-analysis.comで公開されています。
関連論文リスト
- Learning dynamic representations of the functional connectome in
neurobiological networks [41.94295877935867]
我々は、生きた行動する動物のニューロン間の動的親和性を学ぶために、教師なしのアプローチを導入する。
本研究では,ニューロン間の因果関係を強く予測し,行動を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:54:25Z) - Functional connectivity modules in recurrent neural networks: function,
origin and dynamics [41.988864091386766]
加群は入力層から繰り返し層への射影の符号と重みの非対称性から自然に形成されることを示す。
モジュールは、システム動作やダイナミクスの制御において、同様の役割と接続を定義する。
論文 参考訳(メタデータ) (2023-10-31T16:37:01Z) - Seeing is Believing: Brain-Inspired Modular Training for Mechanistic
Interpretability [5.15188009671301]
Brain-Inspired Modular Trainingは、ニューラルネットワークをよりモジュール的で解釈可能なものにする方法である。
BIMTは、ニューロンを幾何学的空間に埋め込み、各ニューロン接続の長さに比例して損失関数を増大させる。
論文 参考訳(メタデータ) (2023-05-04T17:56:42Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Two-argument activation functions learn soft XOR operations like
cortical neurons [6.88204255655161]
本研究では,基底と円錐状デンドライトに類似した2つの入力引数で正準活性化関数を学習する。
顕著なことに、結果として生じる非線形性はしばしばソフトなXOR関数を生成する。
これらの非線形性を持つネットワークは、一致したパラメータ数を持つ従来のReLU非線形性よりも高速に学習し、性能が向上する。
論文 参考訳(メタデータ) (2021-10-13T17:06:20Z) - RE-MIMO: Recurrent and Permutation Equivariant Neural MIMO Detection [85.44877328116881]
無線通信システムにおけるシンボル検出のための新しいニューラルネットワークを提案する。
無線通信システムにおけるいくつかの重要な考察に動機付けられている。
その性能を既存手法と比較し,ネットワークが可変数の送信機を効率的に処理できることを示す。
論文 参考訳(メタデータ) (2020-06-30T22:43:01Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z) - DeepRetinotopy: Predicting the Functional Organization of Human Visual
Cortex from Structural MRI Data using Geometric Deep Learning [125.99533416395765]
我々は,脳機能と解剖学の複雑な関係を構造的および機能的MRIデータから学習するために,大脳皮質の構造を活用できるディープラーニングモデルを開発した。
我々のモデルは解剖学的特性だけで人間の視覚野の機能的構造を予測することができ、また個人間でのニュアンスの変化を予測することができた。
論文 参考訳(メタデータ) (2020-05-26T04:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。