論文の概要: Applying statistical learning theory to deep learning
- arxiv url: http://arxiv.org/abs/2311.15404v1
- Date: Sun, 26 Nov 2023 20:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:58:04.582842
- Title: Applying statistical learning theory to deep learning
- Title(参考訳): 統計的学習理論を深層学習に適用する
- Authors: C\'edric Gerbelot, Avetik Karagulyan, Stefani Karp, Kavya
Ravichandran, Menachem Stern, Nathan Srebro
- Abstract要約: これらの講義の目的は、深層学習を理解しようとするときに生じる主な疑問の概要を提供することである。
良心過剰の文脈における暗黙の偏見について論じる。
本稿では, 線形対角線ネットワーク上での勾配降下の暗黙的バイアスを, 様々な回帰タスクに対して詳細に検討する。
- 参考スコア(独自算出の注目度): 18.77601216228485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although statistical learning theory provides a robust framework to
understand supervised learning, many theoretical aspects of deep learning
remain unclear, in particular how different architectures may lead to inductive
bias when trained using gradient based methods. The goal of these lectures is
to provide an overview of some of the main questions that arise when attempting
to understand deep learning from a learning theory perspective. After a brief
reminder on statistical learning theory and stochastic optimization, we discuss
implicit bias in the context of benign overfitting. We then move to a general
description of the mirror descent algorithm, showing how we may go back and
forth between a parameter space and the corresponding function space for a
given learning problem, as well as how the geometry of the learning problem may
be represented by a metric tensor. Building on this framework, we provide a
detailed study of the implicit bias of gradient descent on linear diagonal
networks for various regression tasks, showing how the loss function, scale of
parameters at initialization and depth of the network may lead to various forms
of implicit bias, in particular transitioning between kernel or feature
learning.
- Abstract(参考訳): 統計的学習理論は教師付き学習を理解するための強固な枠組みを提供するが、深層学習の多くの理論的な側面はいまだに不明であり、特に、異なるアーキテクチャが勾配に基づく方法で訓練された場合、どのように帰納的バイアスをもたらすかである。
これらの講義の目的は、学習理論の観点から深層学習を理解しようとするときに生じる主な疑問の概要を提供することである。
統計的学習理論と確率的最適化に関する簡単なリマインダーの後、良性過剰の文脈で暗黙のバイアスについて論じる。
その後、ミラー降下アルゴリズムの一般的な説明に移り、与えられた学習問題に対するパラメータ空間と対応する関数空間の間の行き来や、学習問題の幾何が計量テンソルによってどのように表現されるかを示す。
この枠組みに基づき,線形対角ネットワーク上の勾配降下の暗黙的バイアスを,様々な回帰タスクに対して詳細に検討し,損失関数,初期化時のパラメータスケール,ネットワークの深さが,暗黙的バイアス,特にカーネルや特徴学習間の遷移にどのようにつながるかを示す。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - Rethinking Dimensional Rationale in Graph Contrastive Learning from Causal Perspective [15.162584339143239]
グラフコントラスト学習(Graph contrastive learning)は、グラフの様々な摂動から不変情報を捉えるのに優れた一般的な学習パラダイムである。
最近の研究は、グラフから構造的理性を探究することに集中し、不変情報の識別可能性を高める。
本稿では,学習可能な次元理性獲得ネットワークと冗長性低減制約を導入した,次元理性対応グラフコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T10:05:18Z) - Learned Regularization for Inverse Problems: Insights from a Spectral Model [1.4963011898406866]
この章は、逆問題に対する最先端の学習アプローチに関する理論的に確立された調査を提供する。
正規化法とそれらの収束を、基礎となるデータ分布の観点から拡張した定義を与える。
論文 参考訳(メタデータ) (2023-12-15T14:50:14Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory
to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。
この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文 参考訳(メタデータ) (2021-01-26T17:11:40Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。