Fugu-MT 論文翻訳(概要): Emergent Modularity in Pre-trained Transformers

論文の概要: Emergent Modularity in Pre-trained Transformers

arxiv url: http://arxiv.org/abs/2305.18390v2
Date: Mon, 30 Oct 2023 07:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 02:19:28.491685
Title: Emergent Modularity in Pre-trained Transformers
Title（参考訳）: 予習変圧器における創発的モジュラリティ
Authors: Zhengyan Zhang, Zhiyuan Zeng, Yankai Lin, Chaojun Xiao, Xiaozhi Wang, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou
Abstract要約: モジュラリティの主な特徴は、ニューロンの機能的特殊化と機能に基づくニューロングループ化である。事前学習中にモジュラリティがどのように出現するかを調べた結果,モジュール構造が早期に安定していることが判明した。このことはトランスフォーマーがまずモジュラ構造を構築し、次にきめ細かいニューロン関数を学ぶことを示唆している。
参考スコア（独自算出の注目度）: 127.08792763817496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work examines the presence of modularity in pre-trained Transformers, a feature commonly found in human brains and thought to be vital for general intelligence. In analogy to human brains, we consider two main characteristics of modularity: (1) functional specialization of neurons: we evaluate whether each neuron is mainly specialized in a certain function, and find that the answer is yes. (2) function-based neuron grouping: we explore finding a structure that groups neurons into modules by function, and each module works for its corresponding function. Given the enormous amount of possible structures, we focus on Mixture-of-Experts as a promising candidate, which partitions neurons into experts and usually activates different experts for different inputs. Experimental results show that there are functional experts, where clustered are the neurons specialized in a certain function. Moreover, perturbing the activations of functional experts significantly affects the corresponding function. Finally, we study how modularity emerges during pre-training, and find that the modular structure is stabilized at the early stage, which is faster than neuron stabilization. It suggests that Transformers first construct the modular structure and then learn fine-grained neuron functions. Our code and data are available at https://github.com/THUNLP/modularity-analysis.
Abstract（参考訳）: この研究は、人間の脳によく見られる特徴であり、汎用知能に欠かせない機能である、事前訓練されたトランスフォーマーにおけるモジュラリティの存在を調べる。 1)ニューロンの機能的特殊化:各ニューロンが主に特定の機能に特化しているかどうかを評価し,その答えがイエスであることを確かめる。 2) 機能に基づくニューロングループ化: 機能によってニューロンをモジュールに分類する構造を探索し, 各モジュールが対応する機能のために機能する。考えられる膨大な量の構造を考えると、我々は期待できる候補としてMixture-of-Expertsに注目し、ニューロンを専門家に分割し、通常異なる入力に対して異なる専門家を活性化する。実験の結果,特定の機能に特化しているニューロンがクラスター化されている機能の専門家がいることがわかった。さらに、機能専門家のアクティベーションの摂動は、対応する機能に大きく影響する。最後に,事前学習中にモジュール構造がどのように出現するかを調べ,モジュール構造が早期に安定化し,ニューロン安定化よりも高速であることが判明した。トランスフォーマーはまずモジュール構造を構築し、次に細粒度のニューロン機能を学ぶことを示唆する。コードとデータはhttps://github.com/THUNLP/modularity-analysis.comで公開されています。

関連論文リスト

Manifolds and Modules: How Function Develops in a Neural Foundation Model [5.518605965321172]
神経活動の基礎モデルとして,視差刺激に対する時間的応答特性に基づいて各ニューロンを特徴付ける。モデルの異なる処理段階はそれぞれ、定性的に異なる表現構造を示す。全体として、本研究は、神経基盤モデルの内部構造の研究として、その内部の生物学的関連性についての洞察を得るものである。
論文参考訳（メタデータ） (2025-11-26T20:36:47Z)
NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。 NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文参考訳（メタデータ） (2025-06-05T01:01:18Z)
Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文参考訳（メタデータ） (2024-10-25T13:15:17Z)
Don't Cut Corners: Exact Conditions for Modularity in Biologically Inspired Representations [52.48094670415497]
我々は、生物にインスパイアされた表現が、ソース変数(ソース)に関してモジュール化されるときの理論を開発する。我々は、最適な生物学的にインスパイアされたリニアオートエンコーダのニューロンがモジュラー化されるかどうかを判断する情報源のサンプルに対して、必要かつ十分な条件を導出する。我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文参考訳（メタデータ） (2024-10-08T17:41:37Z)
No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか? 本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文参考訳（メタデータ） (2024-05-03T09:12:46Z)
Learning dynamic representations of the functional connectome in neurobiological networks [41.94295877935867]
我々は、生きた行動する動物のニューロン間の動的親和性を学ぶために、教師なしのアプローチを導入する。本研究では,ニューロン間の因果関係を強く予測し,行動を生成する手法を提案する。
論文参考訳（メタデータ） (2024-02-21T19:54:25Z)
Modular Boundaries in Recurrent Neural Networks [39.626497874552555]
我々は、モジュール性として知られるネットワーク科学のコミュニティ検出手法を用いて、ニューロンを異なるモジュールに分割する。これらのモジュラー境界はシステムにとって重要か?
論文参考訳（メタデータ） (2023-10-31T16:37:01Z)
Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability [5.15188009671301]
Brain-Inspired Modular Trainingは、ニューラルネットワークをよりモジュール的で解釈可能なものにする方法である。 BIMTは、ニューロンを幾何学的空間に埋め込み、各ニューロン接続の長さに比例して損失関数を増大させる。
論文参考訳（メタデータ） (2023-05-04T17:56:42Z)
Neural Estimation of Submodular Functions with Applications to Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文参考訳（メタデータ） (2022-10-20T06:00:45Z)
Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文参考訳（メタデータ） (2020-06-24T20:37:05Z)
DeepRetinotopy: Predicting the Functional Organization of Human Visual Cortex from Structural MRI Data using Geometric Deep Learning [125.99533416395765]
我々は,脳機能と解剖学の複雑な関係を構造的および機能的MRIデータから学習するために,大脳皮質の構造を活用できるディープラーニングモデルを開発した。我々のモデルは解剖学的特性だけで人間の視覚野の機能的構造を予測することができ、また個人間でのニュアンスの変化を予測することができた。
論文参考訳（メタデータ） (2020-05-26T04:54:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。