Fugu-MT 論文翻訳(概要): Loss Landscape Degeneracy Drives Stagewise Development in Transformers

論文の概要: Loss Landscape Degeneracy Drives Stagewise Development in Transformers

arxiv url: http://arxiv.org/abs/2402.02364v2
Date: Thu, 13 Feb 2025 07:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:34.805574
Title: Loss Landscape Degeneracy Drives Stagewise Development in Transformers
Title（参考訳）: ランドスケープ・デジェネリシーはトランスフォーマーの段階的開発を促進する
Authors: Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll, Susan Wei, Daniel Murfet,
Abstract要約: トレーニングは、損失景観の縮退の異なる期間に分けることができることを示す。この発見は、近代的な深層学習を理解するための先進的な視点の可能性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 1.947473271879451
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning involves navigating a high-dimensional loss landscape over the neural network parameter space. Over the course of training, complex computational structures form and re-form inside the neural network, leading to shifts in input/output behavior. It is a priority for the science of deep learning to uncover principles governing the development of neural network structure and behavior. Drawing on the framework of singular learning theory, we propose that model development is deeply linked to degeneracy in the local geometry of the loss landscape. We investigate this link by monitoring loss landscape degeneracy throughout training, as quantified by the local learning coefficient, for a transformer language model and an in-context linear regression transformer. We show that training can be divided into distinct periods of change in loss landscape degeneracy, and that these changes in degeneracy coincide with significant changes in the internal computational structure and the input/output behavior of the transformers. This finding underscores the potential of a degeneracy-based perspective for understanding modern deep learning.
Abstract（参考訳）: ディープラーニングでは、ニューラルネットワークパラメータ空間上の高次元ロスランドスケープをナビゲートする。トレーニングの過程で、複雑な計算構造がニューラルネットワーク内で形成され、再形成され、入力/出力の振る舞いがシフトする。ニューラルネットワークの構造と行動の発達を規定する原則を明らかにすることは、ディープラーニングの科学にとって最優先事項である。特異学習理論の枠組みに基づいて、モデル開発は、損失景観の局所幾何学における縮退と深く結びついていることを示唆する。局所学習係数によって定量化される学習を通して、このリンクを学習中に損失景観の縮退を監視することで、トランスフォーマ言語モデルとインコンテクスト線形回帰変換器について検討する。学習は、損失景観の縮退の異なる期間に分けることができ、これらの縮退の変化は、内部の計算構造や変圧器の入出力行動の著しい変化と一致することを示す。この発見は、近代的な深層学習を理解するための先進的な視点の可能性を浮き彫りにする。

関連論文リスト

Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文参考訳（メタデータ） (2024-11-07T05:43:50Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文参考訳（メタデータ） (2024-10-14T16:27:03Z)
Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文参考訳（メタデータ） (2024-10-03T20:51:02Z)
Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文参考訳（メタデータ） (2024-04-08T17:33:11Z)
T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers [8.261182037130407]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文参考訳（メタデータ） (2024-03-07T14:25:03Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文参考訳（メタデータ） (2023-10-05T08:27:33Z)
Emergent learning in physical systems as feedback-based aging in a glassy landscape [0.0]
学習力学は,フィードバック境界力の繰り返し適用に応答してシステムを緩和する老化過程に類似していることが示される。また、エポック関数としての平均二乗誤差の平方根が、ガラス系の典型的な特徴である非指数形式をとることも観察する。
論文参考訳（メタデータ） (2023-09-08T15:24:55Z)
Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文参考訳（メタデータ） (2023-07-24T17:03:28Z)
Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。これらの機構の集約演算子に補正項を提示する。
論文参考訳（メタデータ） (2023-06-02T15:19:08Z)
Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文参考訳（メタデータ） (2023-04-25T15:53:45Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
The Geometry of Self-supervised Learning Models and its Impact on Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文参考訳（メタデータ） (2022-09-18T18:15:38Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文参考訳（メタデータ） (2021-02-28T16:22:58Z)
Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文参考訳（メタデータ） (2021-02-19T17:22:16Z)
Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文参考訳（メタデータ） (2020-12-30T17:14:25Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文参考訳（メタデータ） (2020-04-30T19:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。