論文の概要: Scaling Laws Beyond Backpropagation
- arxiv url: http://arxiv.org/abs/2210.14593v1
- Date: Wed, 26 Oct 2022 10:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:43:47.301967
- Title: Scaling Laws Beyond Backpropagation
- Title(参考訳): バックプロパゲーションを超えたスケーリング法則
- Authors: Matthew J. Filipovich, Alessandro Cappelli, Daniel Hesslow, Julien
Launay
- Abstract要約: 因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
- 参考スコア(独自算出の注目度): 64.0476282000118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alternatives to backpropagation have long been studied to better understand
how biological brains may learn. Recently, they have also garnered interest as
a way to train neural networks more efficiently. By relaxing constraints
inherent to backpropagation (e.g., symmetric feedforward and feedback weights,
sequential updates), these methods enable promising prospects, such as local
learning. However, the tradeoffs between different methods in terms of final
task performance, convergence speed, and ultimately compute and data
requirements are rarely outlined. In this work, we use scaling laws to study
the ability of Direct Feedback Alignment~(DFA) to train causal decoder-only
Transformers efficiently. Scaling laws provide an overview of the tradeoffs
implied by a modeling decision, up to extrapolating how it might transfer to
increasingly large models. We find that DFA fails to offer more efficient
scaling than backpropagation: there is never a regime for which the degradation
in loss incurred by using DFA is worth the potential reduction in compute
budget. Our finding comes at variance with previous beliefs in the alternative
training methods community, and highlights the need for holistic empirical
approaches to better understand modeling decisions.
- Abstract(参考訳): バックプロパゲーションの代替手段は、生物学の脳がどのように学習するかをよりよく理解するために長い間研究されてきた。
最近では、ニューラルネットワークをより効率的に訓練する方法として関心を集めている。
バックプロパゲーションに固有の制約(例えば対称フィードフォワードやフィードバックの重み付け、逐次更新)を緩和することで、これらの手法はローカル学習のような有望な予測を可能にする。
しかし、最終的なタスク性能、収束速度、究極的には計算とデータ要求の観点から異なるメソッド間のトレードオフは、ほとんど説明されない。
本研究では、スケーリング法則を用いて、直接フィードバックアライメント~(DFA)を用いて因果デコーダのみのトランスフォーマーを効率的に訓練する。
スケーリングの法則は、モデリング決定が示唆するトレードオフの概要を提供し、それがますます大きなモデルにどのように移行するかを外挿する。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かっています。
我々の発見は、代替訓練法コミュニティにおける以前の信念と一致し、モデリングの決定をより理解するための総合的な経験的アプローチの必要性を強調している。
関連論文リスト
- Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - From Hope to Safety: Unlearning Biases of Deep Models via Gradient
Penalization in Latent Space [13.763716495058294]
ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。
これは、医療応用など、高い意思決定のためにこれらのモデルをデプロイする際のリスクを生じさせる。
本稿では,勾配のペナル化によるバイアスに対するモデル感度を明示的に低減する,概念レベルでのモデル補正手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T10:07:46Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Optimal Decision Diagrams for Classification [68.72078059880018]
数学的プログラミングの観点から最適決定図の学習について検討する。
本稿では,新しい混合整数線形プログラミングモデルを提案する。
このモデルは、公正性、同義性、安定性の概念に対してどのように容易に拡張できるかを示す。
論文 参考訳(メタデータ) (2022-05-28T18:31:23Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。