論文の概要: Frequency Principle in Deep Learning Beyond Gradient-descent-based
Training
- arxiv url: http://arxiv.org/abs/2101.00747v1
- Date: Mon, 4 Jan 2021 03:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:54:49.974916
- Title: Frequency Principle in Deep Learning Beyond Gradient-descent-based
Training
- Title(参考訳): 深層学習における周波数原理
- Authors: Yuheng Ma, Zhi-Qin John Xu, Jiwei Zhang
- Abstract要約: 最近、周波数パースペクティブは深層学習の理解を前進させる。
ディープニューラルネットワーク(DNN)が低周波数から高周波数のターゲット関数、すなわち周波数原理(F-Principle)に適合することが広く確認されている。
グラデーション・ディセント・トレーニングにおけるf原理の検討
グラデーションベースのトレーニングがF原則に必要な条件であるかどうかは不明である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Frequency perspective recently makes progress in understanding deep learning.
It has been widely verified in both empirical and theoretical studies that deep
neural networks (DNNs) often fit the target function from low to high
frequency, namely Frequency Principle (F-Principle). F-Principle sheds light on
the strength and the weakness of DNNs and inspires a series of subsequent
works, including theoretical studies, empirical studies and the design of
efficient DNN structures etc. Previous works examine the F-Principle in
gradient-descent-based training. It remains unclear whether
gradient-descent-based training is a necessary condition for the F-Principle.
In this paper, we show that the F-Principle exists stably in the training
process of DNNs with non-gradient-descent-based training, including
optimization algorithms with gradient information, such as conjugate gradient
and BFGS, and algorithms without gradient information, such as Powell's method
and Particle Swarm Optimization. These empirical studies show the universality
of the F-Principle and provide hints for further study of F-Principle.
- Abstract(参考訳): 最近、周波数パースペクティブは深層学習の理解を前進させる。
ディープニューラルネットワーク(DNN)が低周波数から高周波数のターゲット関数、すなわち周波数原理(F-Principle)に適合することが実証的および理論的に広く証明されている。
F-PrincipleはDNNの強度と弱さに光を当て、理論研究、実証研究、効率的なDNN構造の設計など、その後の一連の研究を刺激している。
グラデーション・ディフレッシュ・トレーニングにおけるF原理の検討
勾配差に基づく訓練がF原理の必要条件であるかどうかは不明である。
本稿では,F-Principle が非段階的ディフレッシブ・トレーニングによる DNN のトレーニングプロセスに安定して存在し,例えば,共役勾配やBFGS などの勾配情報を用いた最適化アルゴリズムや,パウエル法や粒子群最適化のような勾配情報を持たないアルゴリズムを含むことを示す。
これらの経験的研究は、F原理の普遍性を示し、F原理のさらなる研究のヒントを与える。
関連論文リスト
- Kernel Approximation of Fisher-Rao Gradient Flows [52.154685604660465]
本稿では,フィッシャー・ラオ型およびワッサーシュタイン型勾配流の勾配構造,流れ方程式,および核近似に関する厳密な研究を行う。
具体的には、フィッシャー・ラオ幾何学とその様々なカーネルに基づく近似に注目し、原理的な理論的枠組みを開発する。
論文 参考訳(メタデータ) (2024-10-27T22:52:08Z) - Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm [56.06235614890066]
勾配降下(GD)と勾配降下(SGD)は多くのアプリケーションドメインで広く使われている。
本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。
論文 参考訳(メタデータ) (2024-09-10T14:15:56Z) - Learning by the F-adjoint [0.0]
本研究では、フィードフォワードニューラルネットワークのための教師付き学習アルゴリズムを改善するための理論的枠組みを開発し、検討する。
我々の主な結果は、勾配降下法と組み合わせた神経力学モデルを導入することにより、平衡F-随伴過程を導出したことである。
MNISTとFashion-MNISTデータセットの実験結果は、提案手法が標準バックプロパゲーショントレーニング手順を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-07-08T13:49:25Z) - On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - Overview frequency principle/spectral bias in deep learning [8.78791231619729]
深層ニューラルネットワーク(DNN)の学習行動の周波数原理(F-Principle)を示す。
F-原則は1次元の合成データによって最初に実証され、続いて高次元の実データセットで検証される。
この低周波バイアスは、低周波関数の学習におけるニューラルネットワークの強みと、高周波関数の学習におけるその欠如を明らかにする。
論文 参考訳(メタデータ) (2022-01-19T03:08:33Z) - FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning
Convergence Analysis [27.022551495550676]
本稿では,FLの勾配降下によって訓練された過減化ReLUニューラルネットワークに対応するFL-NTK(Learning Neural Kernel)について,新しい収束解析法を提案する。
理論的には、FL-NTKは線形学習パラメータを適切に調整した自明な速度で大域最適解に収束する。
論文 参考訳(メタデータ) (2021-05-11T13:05:53Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks [9.23835409289015]
本稿では,フーリエ解析の観点から,ディープニューラルネットワーク(DNN)の学習過程について検討する。
非常に普遍的な周波数原理(F-Principle)を実証します -- DNNは低周波数から高周波数のターゲット関数によく適合します。
論文 参考訳(メタデータ) (2019-01-19T13:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。