論文の概要: Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function
- arxiv url: http://arxiv.org/abs/2501.13734v1
- Date: Thu, 23 Jan 2025 15:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:38.404315
- Title: Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function
- Title(参考訳): 構造的パラメータ依存双対関数を持つニューラルネットワークにおけるモデルハイパーパラメータのデータ駆動チューニングのサンプル複雑性
- Authors: Maria-Florina Balcan, Anh Tuan Nguyen, Dravyansh Sharma,
- Abstract要約: 固定問題インスタンス上での実用関数の不連続性と発振を特徴付ける新しい手法を提案する。
これは、実用関数の族における学習理論の複雑さが有界であることを示すのに使うことができる。
- 参考スコア(独自算出の注目度): 24.457000214575245
- License:
- Abstract: Modern machine learning algorithms, especially deep learning based techniques, typically involve careful hyperparameter tuning to achieve the best performance. Despite the surge of intense interest in practical techniques like Bayesian optimization and random search based approaches to automating this laborious and compute-intensive task, the fundamental learning theoretic complexity of tuning hyperparameters for deep neural networks is poorly understood. Inspired by this glaring gap, we initiate the formal study of hyperparameter tuning complexity in deep learning through a recently introduced data driven setting. We assume that we have a series of deep learning tasks, and we have to tune hyperparameters to do well on average over the distribution of tasks. A major difficulty is that the utility function as a function of the hyperparameter is very volatile and furthermore, it is given implicitly by an optimization problem over the model parameters. This is unlike previous work in data driven design, where one can typically explicitly model the algorithmic behavior as a function of the hyperparameters. To tackle this challenge, we introduce a new technique to characterize the discontinuities and oscillations of the utility function on any fixed problem instance as we vary the hyperparameter, our analysis relies on subtle concepts including tools from differential/algebraic geometry and constrained optimization. This can be used to show that the learning theoretic complexity of the corresponding family of utility functions is bounded. We instantiate our results and provide sample complexity bounds for concrete applications tuning a hyperparameter that interpolates neural activation functions and setting the kernel parameter in graph neural networks.
- Abstract(参考訳): 現代の機械学習アルゴリズム、特にディープラーニングベースの技術は、最高のパフォーマンスを達成するために、注意深いハイパーパラメータチューニングを伴います。
ベイジアン最適化やランダム検索に基づくこの退屈で計算集約的なタスクの自動化といった実践的手法への強い関心の高まりにもかかわらず、ディープニューラルネットワークのためにハイパーパラメータをチューニングする基本的な学習理論の複雑さは理解されていない。
このグラリングギャップに触発されて、最近導入されたデータ駆動環境を通じて、ディープラーニングにおけるハイパーパラメータチューニングの複雑さの形式的研究を開始する。
私たちは、一連のディープラーニングタスクがあると仮定し、タスクの分布に対して平均的にうまく動作するようにハイパーパラメータを調整する必要があります。
大きな困難は、ハイパーパラメータの関数としてのユーティリティ関数が非常に揮発性があり、さらにモデルパラメータに対する最適化問題によって暗黙的に与えられることである。
これは、データ駆動設計における以前の作業とは異なり、通常はハイパーパラメータの関数としてアルゴリズムの振る舞いを明示的にモデル化することができる。
この課題に対処するため、我々は、ハイパーパラメータの変化に伴い、任意の固定問題インスタンスにおける実用関数の不連続性と振動を特徴付ける新しい手法を導入し、微分・代数幾何学や制約付き最適化のツールを含む微妙な概念に依存している。
これは、実用関数の族における学習理論の複雑さが有界であることを示すのに使うことができる。
この結果のインスタンス化と,ニューラルネットワークの活性化関数を補間するハイパーパラメータをチューニングし,カーネルパラメータをグラフニューラルネットワークに設定する,具体的なアプリケーションのためのサンプル複雑性境界を提供する。
関連論文リスト
- Hyperparameter Optimization in Machine Learning [34.356747514732966]
ハイパーパラメータは、機械学習アルゴリズムの振る舞いを制御する設定変数である。
それらの価値の選択は、これらの技術に基づいてシステムの有効性を決定する。
我々はハイパーパラメータ最適化の統一的な処理を行い、読者に最先端技術に関する実例と洞察を提供する。
論文 参考訳(メタデータ) (2024-10-30T09:39:22Z) - Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。
我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文 参考訳(メタデータ) (2024-10-11T15:47:46Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Hyper-Parameter Auto-Tuning for Sparse Bayesian Learning [72.83293818245978]
我々は、疎ベイズ学習におけるハイパーパラメータチューニングのためのニューラルネットワーク(NN)ベースのオートチューニングを設計し、学習する。
コンバージェンス率とリカバリ性能の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-11-09T12:34:59Z) - Goal-Oriented Sensitivity Analysis of Hyperparameters in Deep Learning [0.0]
Hilbert-Schmidt Independence Criterion (HSIC) に基づく目標指向感度分析のハイパーパラメータ解析および最適化への応用について検討した。
MNISTやCifar、古典的な機械学習データセットに応用したHSICに基づく最適化アルゴリズムを導出し、科学的な機械学習に関心を持つ。
論文 参考訳(メタデータ) (2022-07-13T14:21:12Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Towards Robust and Automatic Hyper-Parameter Tunning [39.04604349338802]
我々は,新しいHPO法を導入し,畳み込みネットワークの中間層の低ランク因子分解を用いて解析応答面を定義する方法について検討する。
我々は,この表面がモデル性能の代理としてどのように振る舞うかを定量化し,オートHyperと呼ぶ信頼領域探索アルゴリズムを用いて解くことができる。
論文 参考訳(メタデータ) (2021-11-28T05:27:34Z) - HyperNP: Interactive Visual Exploration of Multidimensional Projection
Hyperparameters [61.354362652006834]
HyperNPは、ニューラルネットワーク近似をトレーニングすることで、プロジェクションメソッドをリアルタイムにインタラクティブに探索できるスケーラブルな方法である。
我々は3つのデータセット間でのHyperNPの性能を,性能と速度の観点から評価した。
論文 参考訳(メタデータ) (2021-06-25T17:28:14Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization [4.237343083490243]
機械学習(ML)モデルのトレーニングフェーズでは、通常、いくつかのハイパーパラメータを設定する必要がある。
本稿では、ハイパーパラメータのインタラクティブな探索と、この進化過程への介入を支援するビジュアル分析ツールVisEvolを紹介する。
VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。
論文 参考訳(メタデータ) (2020-12-02T13:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。