論文の概要: Emergent Modularity in Pre-trained Transformers
- arxiv url: http://arxiv.org/abs/2305.18390v1
- Date: Sun, 28 May 2023 11:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:42:03.173000
- Title: Emergent Modularity in Pre-trained Transformers
- Title(参考訳): 予習変圧器における創発的モジュラリティ
- Authors: Zhengyan Zhang, Zhiyuan Zeng, Yankai Lin, Chaojun Xiao, Xiaozhi Wang,
Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou
- Abstract要約: モジュラリティの主な特徴は、ニューロンの機能的特殊化と機能に基づくニューロングループ化である。
事前学習中にモジュラリティがどのように出現するかを調べた結果,モジュール構造が早期に安定していることが判明した。
このことはトランスフォーマーがまずモジュラ構造を構築し、次にきめ細かいニューロン関数を学ぶことを示唆している。
- 参考スコア(独自算出の注目度): 111.27678856082426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the presence of modularity in pre-trained Transformers, a
feature commonly found in human brains and thought to be vital for general
intelligence. In analogy to human brains, we consider two main characteristics
of modularity: (1) functional specialization of neurons: we evaluate whether
each neuron is mainly specialized in a certain function, and find that the
answer is yes. (2) function-based neuron grouping: we explore finding a
structure that groups neurons into modules by function, and each module works
for its corresponding function. Given the enormous amount of possible
structures, we focus on Mixture-of-Experts as a promising candidate, which
partitions neurons into experts and usually activates different experts for
different inputs. Experimental results show that there are functional experts,
where clustered are the neurons specialized in a certain function. Moreover,
perturbing the activations of functional experts significantly affects the
corresponding function. Finally, we study how modularity emerges during
pre-training, and find that the modular structure is stabilized at the early
stage, which is faster than neuron stabilization. It suggests that Transformers
first construct the modular structure and then learn fine-grained neuron
functions. Our code and data are available at
https://github.com/THUNLP/modularity-analysis.
- Abstract(参考訳): この研究は、人間の脳によく見られる特徴であり、汎用知能に欠かせない機能である、事前訓練されたトランスフォーマーにおけるモジュラリティの存在を調べる。
1)ニューロンの機能的特殊化:各ニューロンが主に特定の機能に特化しているかどうかを評価し,その答えがイエスであることを確かめる。
2) 機能に基づくニューロングループ化: 機能によってニューロンをモジュールに分類する構造を探索し, 各モジュールが対応する機能のために機能する。
考えられる膨大な量の構造を考えると、我々は期待できる候補としてMixture-of-Expertsに注目し、ニューロンを専門家に分割し、通常異なる入力に対して異なる専門家を活性化する。
実験の結果,特定の機能に特化しているニューロンがクラスター化されている機能の専門家がいることがわかった。
さらに、機能専門家のアクティベーションの摂動は、対応する機能に大きく影響する。
最後に,事前学習中にモジュール構造がどのように出現するかを調べ,モジュール構造が早期に安定化し,ニューロン安定化よりも高速であることが判明した。
トランスフォーマーはまずモジュール構造を構築し、次に細粒度のニューロン機能を学ぶことを示唆する。
コードとデータはhttps://github.com/THUNLP/modularity-analysis.comで公開されています。
関連論文リスト
- Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Don't Cut Corners: Exact Conditions for Modularity in Biologically Inspired Representations [52.48094670415497]
我々は、生物にインスパイアされた表現が、ソース変数(ソース)に関してモジュール化されるときの理論を開発する。
我々は、最適な生物学的にインスパイアされたリニアオートエンコーダのニューロンがモジュラー化されるかどうかを判断する情報源のサンプルに対して、必要かつ十分な条件を導出する。
我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文 参考訳(メタデータ) (2024-10-08T17:41:37Z) - No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか?
本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。
実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文 参考訳(メタデータ) (2024-05-03T09:12:46Z) - Modular Boundaries in Recurrent Neural Networks [39.626497874552555]
我々は、モジュール性として知られるネットワーク科学のコミュニティ検出手法を用いて、ニューロンを異なるモジュールに分割する。
これらのモジュラー境界はシステムにとって重要か?
論文 参考訳(メタデータ) (2023-10-31T16:37:01Z) - Seeing is Believing: Brain-Inspired Modular Training for Mechanistic
Interpretability [5.15188009671301]
Brain-Inspired Modular Trainingは、ニューラルネットワークをよりモジュール的で解釈可能なものにする方法である。
BIMTは、ニューロンを幾何学的空間に埋め込み、各ニューロン接続の長さに比例して損失関数を増大させる。
論文 参考訳(メタデータ) (2023-05-04T17:56:42Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - DeepRetinotopy: Predicting the Functional Organization of Human Visual
Cortex from Structural MRI Data using Geometric Deep Learning [125.99533416395765]
我々は,脳機能と解剖学の複雑な関係を構造的および機能的MRIデータから学習するために,大脳皮質の構造を活用できるディープラーニングモデルを開発した。
我々のモデルは解剖学的特性だけで人間の視覚野の機能的構造を予測することができ、また個人間でのニュアンスの変化を予測することができた。
論文 参考訳(メタデータ) (2020-05-26T04:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。