論文の概要: Deep learning for pedestrians: backpropagation in Transformers
- arxiv url: http://arxiv.org/abs/2512.23329v1
- Date: Mon, 29 Dec 2025 09:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.45473
- Title: Deep learning for pedestrians: backpropagation in Transformers
- Title(参考訳): 歩行者の深層学習--トランスフォーマーのバックプロパゲーション
- Authors: Laurent Boué,
- Abstract要約: 我々はインデックスフリーな手法を、埋め込み、マルチヘッド自己注意、レイヤー正規化といった新しいタイプのレイヤーに適用する。
最小主義的なGPT様ネットワークの完全なPyTorch実装と、そのすべての勾配更新の分析式も提供される。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document is a follow-up to our previous paper dedicated to a vectorized derivation of backpropagation in CNNs. Following the same principles and notations already put in place there, we now focus on transformer-based next-token-prediction architectures. To this end, we apply our lightweight index-free methodology to new types of layers such as embedding, multi-headed self-attention and layer normalization. In addition, we also provide gradient expressions for LoRA layers to illustrate parameter-efficient fine-tuning. Why bother doing manual backpropagation when there are so many tools that do this automatically? Any gap in understanding of how values propagate forward will become evident when attempting to differentiate the loss function. By working through the backward pass manually, we gain a deeper intuition for how each operation influences the final output. A complete PyTorch implementation of a minimalistic GPT-like network is also provided along with analytical expressions for of all of its gradient updates.
- Abstract(参考訳): この文書は、CNNにおけるバックプロパゲーションのベクトル化導出を主軸とした、これまでの論文のフォローアップである。
同様の原則や表記法がすでに導入されていますが、現在ではトランスフォーマーベースの次世代予測アーキテクチャに重点を置いています。
この目的のために、我々は軽量なインデックスフリー手法を、埋め込み、マルチヘッド自己アテンション、レイヤー正規化といった新しいタイプのレイヤーに適用する。
さらに,パラメータ効率のよい微調整を示すために,LoRA層に対する勾配式も提供する。
なぜ手動でバックプロパゲーションを行うのが面倒なのでしょうか?
損失関数を区別しようとすると、値の伝播の仕方に対する理解のギャップが明らかになる。
後方パスを手動で操作することで、各操作が最終的な出力にどのように影響するかの深い直感が得られる。
最小主義的なGPT様ネットワークの完全なPyTorch実装と、そのすべての勾配更新の分析式も提供される。
関連論文リスト
- A Truly Sparse and General Implementation of Gradient-Based Synaptic Plasticity [0.7617849765320394]
本稿では、勾配に基づくシナプス可塑性規則のスパース化とオンライン実装のためのカスタム自動微分(AD)パイプラインを提案する。
我々の研究は、メモリ効率を保ちながら、AD転送のためのバックプロパゲーション型メソッドのプログラミングを容易にすることを組み合わせている。
本稿では,シーケンス長に依存することなく,ネットワークサイズでメモリ利用がいかにスケールするかを示す。
論文 参考訳(メタデータ) (2025-01-20T11:14:11Z) - Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。
提案手法は, 既存手法よりも高スパース性設定で優れる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-27T03:17:52Z) - Extraction Propagation [4.368185344922342]
本稿では、多数の小さなニューラルネットワークで構成された代替アーキテクチャについて述べる。
アーキテクチャを通じて勾配を伝播する代わりに、前方パスを介して計算されたベクトル値のメッセージを伝搬する。
論文 参考訳(メタデータ) (2024-02-24T19:06:41Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。