論文の概要: Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers
- arxiv url: http://arxiv.org/abs/2407.07848v1
- Date: Wed, 10 Jul 2024 17:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:43:17.755440
- Title: Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers
- Title(参考訳): ReLU変圧器における層依存性活性化空間パターンの解明
- Authors: Cody Wild, Jesper Anderson,
- Abstract要約: 我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
- 参考スコア(独自算出の注目度): 2.1572258716881905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has demonstrated that MLPs within ReLU Transformers exhibit high levels of sparsity, with many of their activations equal to zero for any given token. We build on that work to more deeply explore how token-level sparsity evolves over the course of training, and how it connects to broader sparsity patterns over the course of a sequence or batch, demonstrating that the different layers within small transformers exhibit distinctly layer-specific patterns on both of these fronts. In particular, we demonstrate that the first and last layer of the network have distinctive and in many ways inverted relationships to sparsity, and explore implications for the structure of feature representations being learned at different depths of the model. We additionally explore the phenomenon of ReLU dimensions "turning off", and show evidence suggesting that "neuron death" is being primarily driven by the dynamics of training, rather than simply occurring randomly or accidentally as a result of outliers.
- Abstract(参考訳): 以前の研究では、ReLUトランスフォーマー内のMLPは高いレベルの空間性を示し、その活性化の多くは任意のトークンに対してゼロに等しいことが示されている。
私たちは、トレーニングの過程でトークンレベルのスパーシリティがどのように進化するか、シーケンスやバッチの過程で広範囲のスパーシティパターンにどのように接続するかをより深く調査し、小さなトランスフォーマー内の異なるレイヤが、両方のフロントに明確にレイヤ固有のパターンを示すことを実証しています。
特に、ネットワークの第一層と最後の層は、空間性との関係を多くの点で逆転させ、モデルの異なる深さで学習される特徴表現の構造に影響を及ぼすことを実証する。
さらに、ReLU次元の現象を「消し去る」ことを探り、「ニューロン死」は、単に異常な結果や誤って発生するのではなく、トレーニングのダイナミクスによって引き起こされていることを示す証拠を提示する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Manifold Contrastive Learning with Variational Lie Group Operators [5.0741409008225755]
そこで本研究では, 余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰乗群演算子を用いて, 潜在多様体を直接モデル化する対照的な学習手法を提案する。
これらの係数上の変動分布は多様体の生成モデルを提供し、対照的なトレーニングと下流のタスクの両方で適用可能な特徴増強を提供するサンプルを提供する。
論文 参考訳(メタデータ) (2023-06-23T15:07:01Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。
我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。
実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-02-14T22:31:37Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。