論文の概要: A Visual Case Study of the Training Dynamics in Neural Networks
- arxiv url: http://arxiv.org/abs/2410.24050v1
- Date: Thu, 31 Oct 2024 15:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:19.997228
- Title: A Visual Case Study of the Training Dynamics in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるトレーニングダイナミクスの視覚的ケーススタディ
- Authors: Ambroise Odonnat, Wassim Bouaziz, Vivien Cabannes,
- Abstract要約: 本稿では,小型変圧器モデルのトレーニング力学を探索するビジュアルサンドボックスを提案する。
我々は、正規化層の高い曲率によって引き起こされるものを含む、トレーニング力学、回路伝達性、損失スパイクの原因に関する洞察を得る。
- 参考スコア(独自算出の注目度): 2.900289363118179
- License:
- Abstract: This paper introduces a visual sandbox designed to explore the training dynamics of a small-scale transformer model, with the embedding dimension constrained to $d=2$. This restriction allows for a comprehensive two-dimensional visualization of each layer's dynamics. Through this approach, we gain insights into training dynamics, circuit transferability, and the causes of loss spikes, including those induced by the high curvature of normalization layers. We propose strategies to mitigate these spikes, demonstrating how good visualization facilitates the design of innovative ideas of practical interest. Additionally, we believe our sandbox could assist theoreticians in assessing essential training dynamics mechanisms and integrating them into future theories. The code is available at https://github.com/facebookresearch/pal.
- Abstract(参考訳): 本稿では,小型変圧器モデルのトレーニング力学を,埋め込み次元を$d=2$に制限した視覚的サンドボックスを提案する。
この制限により、各層のダイナミクスを包括的に2次元的に可視化することができる。
このアプローチを通じて、正規化層の高い曲率によって引き起こされるものを含む、トレーニング力学、回路伝達可能性、損失スパイクの原因に関する洞察を得る。
我々はこれらのスパイクを緩和する戦略を提案し、優れた可視化が実践的関心を持つ革新的なアイデアの設計をいかに促進するかを示す。
さらに、我々のサンドボックスは、理論家が基本的なトレーニング力学のメカニズムを評価し、それらを将来の理論に組み込むのを助けることができると信じています。
コードはhttps://github.com/facebookresearch/pal.comで公開されている。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。