論文の概要: Unraveling Feature Extraction Mechanisms in Neural Networks
- arxiv url: http://arxiv.org/abs/2310.16350v2
- Date: Thu, 26 Oct 2023 03:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 00:25:35.022107
- Title: Unraveling Feature Extraction Mechanisms in Neural Networks
- Title(参考訳): ニューラルネットワークにおける特徴抽出機構の解明
- Authors: Xiaobing Sun, Jiaxi Li, Wei Lu
- Abstract要約: 本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
- 参考スコア(独自算出の注目度): 10.13842157577026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The underlying mechanism of neural networks in capturing precise knowledge
has been the subject of consistent research efforts. In this work, we propose a
theoretical approach based on Neural Tangent Kernels (NTKs) to investigate such
mechanisms. Specifically, considering the infinite network width, we
hypothesize the learning dynamics of target models may intuitively unravel the
features they acquire from training data, deepening our insights into their
internal mechanisms. We apply our approach to several fundamental models and
reveal how these models leverage statistical features during gradient descent
and how they are integrated into final decisions. We also discovered that the
choice of activation function can affect feature extraction. For instance, the
use of the \textit{ReLU} activation function could potentially introduce a bias
in features, providing a plausible explanation for its replacement with
alternative functions in recent pre-trained language models. Additionally, we
find that while self-attention and CNN models may exhibit limitations in
learning n-grams, multiplication-based models seem to excel in this area. We
verify these theoretical findings through experiments and find that they can be
applied to analyze language modeling tasks, which can be regarded as a special
variant of classification. Our contributions offer insights into the roles and
capacities of fundamental components within large language models, thereby
aiding the broader understanding of these complex systems.
- Abstract(参考訳): ニューラルネットワークの正確な知識を捉えるメカニズムは、一貫した研究の主題となっている。
本研究では,ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し,そのメカニズムを解明する。
具体的には、無限のネットワーク幅を考慮すると、ターゲットモデルの学習力学が直感的にトレーニングデータから得られる特徴を解明し、内部メカニズムへの洞察を深める可能性があると仮定する。
このアプローチをいくつかの基本モデルに適用し,勾配降下時の統計的特徴をどのように活用するか,最終決定にどのように統合するかを明らかにする。
また,アクティベーション関数の選択が特徴抽出に影響を及ぼすことがわかった。
例えば、 \textit{ReLU} アクティベーション関数の使用は、機能にバイアスをもたらす可能性がある。
さらに、自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れているようである。
これらの理論的な知見を実験を通して検証し,分類の特殊変種と見なすことができる言語モデリングタスクの解析に応用できることを見出した。
当社のコントリビューションは,大規模言語モデルにおける基本コンポーネントの役割とキャパシティに関する洞察を提供し,複雑なシステムのより広範な理解を支援します。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Mechanism of feature learning in deep fully connected networks and
kernel machines that recursively learn features [15.29093374895364]
我々は,ニューラルネットワークが勾配特徴を学習するメカニズムを同定し,特徴付ける。
私たちのアンザッツは、突発的な特徴の出現や単純さのバイアスなど、さまざまな深層学習現象に光を当てています。
この特徴学習機構の有効性を実証するため,古典的非機能学習モデルにおいて特徴学習を可能にする。
論文 参考訳(メタデータ) (2022-12-28T15:50:58Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Convolutional Motif Kernel Networks [1.104960878651584]
我々のモデルは、小さなデータセットでしっかりと学習でき、関連する医療予測タスクで最先端のパフォーマンスを達成できることを示す。
提案手法はDNAおよびタンパク質配列に利用することができる。
論文 参考訳(メタデータ) (2021-11-03T15:06:09Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。