論文の概要: Architecture-Aware Learning Curve Extrapolation via Graph Ordinary Differential Equation
- arxiv url: http://arxiv.org/abs/2412.15554v2
- Date: Mon, 23 Dec 2024 02:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 12:13:30.095447
- Title: Architecture-Aware Learning Curve Extrapolation via Graph Ordinary Differential Equation
- Title(参考訳): グラフ正規微分方程式によるアーキテクチャ学習曲線外挿
- Authors: Yanna Ding, Zijie Huang, Xiao Shou, Yihang Guo, Yizhou Sun, Jianxi Gao,
- Abstract要約: 本稿では,学習曲線を連続的に予測するアーキテクチャを考慮したニューラル微分方程式モデルを提案する。
我々のモデルは、純粋な時系列モデリングとCNNベースの学習曲線の両方に対して、最先端の学習曲線法および補間アプローチより優れている。
- 参考スコア(独自算出の注目度): 33.63030304318472
- License:
- Abstract: Learning curve extrapolation predicts neural network performance from early training epochs and has been applied to accelerate AutoML, facilitating hyperparameter tuning and neural architecture search. However, existing methods typically model the evolution of learning curves in isolation, neglecting the impact of neural network (NN) architectures, which influence the loss landscape and learning trajectories. In this work, we explore whether incorporating neural network architecture improves learning curve modeling and how to effectively integrate this architectural information. Motivated by the dynamical system view of optimization, we propose a novel architecture-aware neural differential equation model to forecast learning curves continuously. We empirically demonstrate its ability to capture the general trend of fluctuating learning curves while quantifying uncertainty through variational parameters. Our model outperforms current state-of-the-art learning curve extrapolation methods and pure time-series modeling approaches for both MLP and CNN-based learning curves. Additionally, we explore the applicability of our method in Neural Architecture Search scenarios, such as training configuration ranking.
- Abstract(参考訳): 学習曲線の外挿は、初期のトレーニングエポックからニューラルネットワークのパフォーマンスを予測し、ハイパーパラメータチューニングとニューラルネットワーク検索を容易にするAutoMLの高速化に応用されている。
しかし、既存の手法は通常、学習曲線の独立な進化をモデル化し、ニューラルネットワーク(NN)アーキテクチャの影響を無視する。
本研究では,ニューラルネットワークアーキテクチャの導入によって学習曲線のモデリングが改善し,このアーキテクチャ情報を効果的に統合する方法について検討する。
最適化の力学系の観点から,学習曲線を連続的に予測するアーキテクチャを意識したニューラル微分方程式モデルを提案する。
変動パラメータによる不確実性を定量化しながら、学習曲線のゆらぎの一般的な傾向を捉えることができることを実証的に示す。
本モデルは,MLPおよびCNNに基づく学習曲線に対して,現在最先端の学習曲線外挿法および純粋時系列モデリング手法より優れる。
さらに、トレーニング構成ランキングなどのニューラルネットワーク検索シナリオにおける手法の適用性についても検討する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - eXponential FAmily Dynamical Systems (XFADS): Large-scale nonlinear Gaussian state-space modeling [9.52474299688276]
非線形状態空間グラフィカルモデルのための低ランク構造化変分オートエンコーダフレームワークを提案する。
我々のアプローチは、より予測的な生成モデルを学ぶ能力を一貫して示している。
論文 参考訳(メタデータ) (2024-03-03T02:19:49Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Extracting Global Dynamics of Loss Landscape in Deep Learning Models [0.0]
本稿では,DOODL3 (Dynamical Organization of Deep Learning Loss Landscapes) のためのツールキットを提案する。
DOODL3は、ニューラルネットワークのトレーニングを動的システムとして定式化し、学習プロセスを分析し、損失ランドスケープにおける軌跡の解釈可能なグローバルビューを示す。
論文 参考訳(メタデータ) (2021-06-14T18:07:05Z) - DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in
Continuous Control [0.0]
本稿では,ニューラル常微分方程式の枠組みに制御を組み込むことにより,システムの基盤となる力学を捉える新しい手法を提案する。
以上の結果から,アクター批判強化学習アルゴリズムと組み合わせた単純なDyNODEアーキテクチャが,標準ニューラルネットワークより優れていることが示唆された。
論文 参考訳(メタデータ) (2020-09-09T12:56:58Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Learning to Rank Learning Curves [15.976034696758148]
本稿では,トレーニングの早い段階で,構成不良を解消し,計算予算を削減できる新しい手法を提案する。
我々は,学習曲線を観測することなく,学習曲線を効果的にランク付けできることを示す。
論文 参考訳(メタデータ) (2020-06-05T10:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。