論文の概要: Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond
- arxiv url: http://arxiv.org/abs/2411.00247v1
- Date: Thu, 31 Oct 2024 22:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:37.554350
- Title: Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond
- Title(参考訳): テレスコープレンズによるディープラーニング: グロッキング、グラディエントブースティング、その他に関する実証的な洞察を提供するシンプルなモデル
- Authors: Alan Jeffares, Alicia Curth, Mihaela van der Schaar,
- Abstract要約: その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
- 参考スコア(独自算出の注目度): 61.18736646013446
- License:
- Abstract: Deep learning sometimes appears to work in unexpected ways. In pursuit of a deeper understanding of its surprising behaviors, we investigate the utility of a simple yet accurate model of a trained neural network consisting of a sequence of first-order approximations telescoping out into a single empirically operational tool for practical analysis. Across three case studies, we illustrate how it can be applied to derive new empirical insights on a diverse range of prominent phenomena in the literature -- including double descent, grokking, linear mode connectivity, and the challenges of applying deep learning on tabular data -- highlighting that this model allows us to construct and extract metrics that help predict and understand the a priori unexpected performance of neural networks. We also demonstrate that this model presents a pedagogical formalism allowing us to isolate components of the training process even in complex contemporary settings, providing a lens to reason about the effects of design choices such as architecture & optimization strategy, and reveals surprising parallels between neural network learning and gradient boosting.
- Abstract(参考訳): ディープラーニングは、時々予期しない方法で機能する。
本研究では,その驚くべき振る舞いをより深く理解するために,一階近似列からなる訓練ニューラルネットワークの簡易かつ正確なモデルの有用性について検討する。
3つのケーススタディで、二重降下、グラッキング、リニアモード接続、そしてグラフデータにディープラーニングを適用するという課題を含む、文学における様々な顕著な現象に関する新しい経験的洞察を導き出すために、どのように適用できるかを説明し、このモデルがニューラルネットワークの予期せぬパフォーマンスを予測し理解する上で役立つメトリクスを構築し、抽出することを可能にすることを強調した。
また、このモデルでは、複雑な現代環境においてもトレーニングプロセスのコンポーネントを分離し、アーキテクチャや最適化戦略などの設計選択の影響を推論するためのレンズを提供し、ニューラルネットワーク学習と勾配向上の驚くべき類似点を明らかにする。
関連論文リスト
- Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - An Information-Theoretic Framework for Supervised Learning [22.280001450122175]
後悔とサンプルの複雑さという独自の概念を持つ新しい情報理論フレームワークを提案する。
本稿では、ReLUアクティベーションユニットを用いたディープニューラルネットワークによって生成されたデータから学習する際のサンプルの複雑さについて検討する。
我々は、ランダムな単層ニューラルネットワークの実験的な解析により、理論結果を裏付けることで結論付ける。
論文 参考訳(メタデータ) (2022-03-01T05:58:28Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Extracting Global Dynamics of Loss Landscape in Deep Learning Models [0.0]
本稿では,DOODL3 (Dynamical Organization of Deep Learning Loss Landscapes) のためのツールキットを提案する。
DOODL3は、ニューラルネットワークのトレーニングを動的システムとして定式化し、学習プロセスを分析し、損失ランドスケープにおける軌跡の解釈可能なグローバルビューを示す。
論文 参考訳(メタデータ) (2021-06-14T18:07:05Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z) - Gradients as Features for Deep Representation Learning [26.996104074384263]
本稿では,事前学習したディープ・ネットワークを様々なタスクに適応させることによって,ディープ・表現学習の課題に対処する。
我々の重要な革新は、事前訓練されたネットワークの勾配と活性化の両方を組み込んだ線形モデルの設計である。
我々は,実際の勾配を計算せずに,モデルのトレーニングと推論を効率的に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-12T02:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。