論文の概要: Loss Landscape Degeneracy Drives Stagewise Development in Transformers
- arxiv url: http://arxiv.org/abs/2402.02364v2
- Date: Thu, 13 Feb 2025 07:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:46:46.440479
- Title: Loss Landscape Degeneracy Drives Stagewise Development in Transformers
- Title(参考訳): ランドスケープ・デジェネリシーはトランスフォーマーの段階的開発を促進する
- Authors: Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll, Susan Wei, Daniel Murfet,
- Abstract要約: トレーニングは、損失景観の縮退の異なる期間に分けることができることを示す。
この発見は、近代的な深層学習を理解するための先進的な視点の可能性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 1.947473271879451
- License:
- Abstract: Deep learning involves navigating a high-dimensional loss landscape over the neural network parameter space. Over the course of training, complex computational structures form and re-form inside the neural network, leading to shifts in input/output behavior. It is a priority for the science of deep learning to uncover principles governing the development of neural network structure and behavior. Drawing on the framework of singular learning theory, we propose that model development is deeply linked to degeneracy in the local geometry of the loss landscape. We investigate this link by monitoring loss landscape degeneracy throughout training, as quantified by the local learning coefficient, for a transformer language model and an in-context linear regression transformer. We show that training can be divided into distinct periods of change in loss landscape degeneracy, and that these changes in degeneracy coincide with significant changes in the internal computational structure and the input/output behavior of the transformers. This finding underscores the potential of a degeneracy-based perspective for understanding modern deep learning.
- Abstract(参考訳): ディープラーニングでは、ニューラルネットワークパラメータ空間上の高次元ロスランドスケープをナビゲートする。
トレーニングの過程で、複雑な計算構造がニューラルネットワーク内で形成され、再形成され、入力/出力の振る舞いがシフトする。
ニューラルネットワークの構造と行動の発達を規定する原則を明らかにすることは、ディープラーニングの科学にとって最優先事項である。
特異学習理論の枠組みに基づいて、モデル開発は、損失景観の局所幾何学における縮退と深く結びついていることを示唆する。
局所学習係数によって定量化される学習を通して、このリンクを学習中に損失景観の縮退を監視することで、トランスフォーマ言語モデルとインコンテクスト線形回帰変換器について検討する。
学習は、損失景観の縮退の異なる期間に分けることができ、これらの縮退の変化は、内部の計算構造や変圧器の入出力行動の著しい変化と一致することを示す。
この発見は、近代的な深層学習を理解するための先進的な視点の可能性を浮き彫りにする。
関連論文リスト
- Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Inverting Visual Representations with Detection Transformers [0.8124699127636158]
本研究では,検出変換器内の中間層からの入力画像を再構成するために,逆モデルのトレーニング手法を適用する。
本研究では, テクスチャ形状の堅牢性, 層間相関, 色摂動の保存など, 検出変換器の臨界特性を示す。
論文 参考訳(メタデータ) (2024-12-09T14:43:06Z) - Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - Emergent learning in physical systems as feedback-based aging in a
glassy landscape [0.0]
学習力学は,フィードバック境界力の繰り返し適用に応答してシステムを緩和する老化過程に類似していることが示される。
また、エポック関数としての平均二乗誤差の平方根が、ガラス系の典型的な特徴である非指数形式をとることも観察する。
論文 参考訳(メタデータ) (2023-09-08T15:24:55Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。