論文の概要: Learning Hyperparameters via a Data-Emphasized Variational Objective
- arxiv url: http://arxiv.org/abs/2502.01861v2
- Date: Thu, 05 Jun 2025 03:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.443344
- Title: Learning Hyperparameters via a Data-Emphasized Variational Objective
- Title(参考訳): データ強調変動オブジェクトによるハイパーパラメータの学習
- Authors: Ethan Harvey, Mikhail Petrov, Michael C. Hughes,
- Abstract要約: ベイズ変分法から得られたエビデンスローバウンド(ELBo)目標を通した全トレーニングセット上での正規化ハイパーパラメータの勾配に基づく直接学習を検討する。
このようなシナリオでは、ELBoは事前のばらつきにマッチする後方を優先順位付けし、データの過小評価につながる。
提案手法は,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行う。
- 参考スコア(独自算出の注目度): 4.453137996095194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training large flexible models on limited data, avoiding overfitting is a practical concern. Common grid search or smarter search methods rely on expensive separate runs at each candidate hyperparameter while carving out a validation set that reduces available training data. In this paper, we consider direct gradient-based learning of regularization hyperparameters on the full training set via the evidence lower bound ("ELBo") objective from Bayesian variational methods. We focus on scenarios where the model is over-parameterized for flexibility while the approximate posterior is chosen to be Gaussian with isotropic covariance for tractability, even though it cannot match the true posterior exactly. In such scenarios, we find the ELBo prioritizes posteriors that match the prior variance, which leads to severely underfitting the data. Instead, we recommend a data-emphasized ELBo that upweights the influence of the data likelihood relative to the prior. In Bayesian transfer learning of classifiers for text and images, our method reduces 88+ hour grid searches of past work to under 3 hours while delivering comparable accuracy. We further demonstrate how our approach enables efficient yet accurate approximations of Gaussian processes with learnable length-scale kernels.
- Abstract(参考訳): 限られたデータ上で大きなフレキシブルモデルをトレーニングする場合、オーバーフィッティングを避けることが現実的な懸念である。
一般的なグリッド検索やよりスマートな検索方法は、各候補のハイパーパラメータでの高価な個別実行に依存し、利用可能なトレーニングデータを減らす検証セットを彫り出す。
本稿では,ベイズ変分法から得られたエビデンスローバウンド(ELBo)目標を通した全トレーニングセット上での正規化ハイパーパラメータの勾配に基づく直接学習について考察する。
モデルが柔軟性のために過度にパラメータ化されているのに対して、近似後部は、真の後部と正確に一致しないにもかかわらず、トラクタビリティのための等方的共分散を持つガウス的であるように選択されるシナリオに焦点を当てる。
このようなシナリオでは、ELBoが事前のばらつきにマッチする後方を優先順位付けし、データの過小評価につながる。
代わりに、データ強調のELBoを推奨します。
テキストや画像の分類器のベイズ変換学習では,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行う。
さらに,学習可能な長大カーネルを用いたガウス過程の効率的かつ高精度な近似を実現する方法を示す。
関連論文リスト
- Learning the Regularization Strength for Deep Fine-Tuning via a Data-Emphasized Variational Objective [4.453137996095194]
グリッド検索は計算コストが高く、検証セットを彫り出す必要があり、実践者は候補値を指定する必要がある。
提案手法はグリッド探索の3つの欠点をすべて克服する。
いくつかのデータセットにおける画像分類タスクの有効性を実証し,既存の手法に匹敵するホールドアウト精度を得た。
論文 参考訳(メタデータ) (2024-10-25T16:32:11Z) - Kolmogorov Arnold Networks in Fraud Detection: Bridging the Gap Between Theory and Practice [3.692410936160711]
本研究では,コルモゴロフ・アルノルドネットワーク(KAN)の不正検出への適用性を検討した。
そこで本研究では,PCA(Principal Component Analysis, 主成分分析)を用いて,データをスプラインを用いて2次元に分割する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T18:58:21Z) - Improving Hyperparameter Optimization with Checkpointed Model Weights [16.509585437768063]
本研究では,トレーニングした重みのログ化されたチェックポイントを用いたニューラルネットワークのためのHPO法を提案する。
我々の手法である予測モデル探索(FMS)は、重みをガウス過程のディープカーネルサロゲートモデルに埋め込む。
論文 参考訳(メタデータ) (2024-06-26T17:59:54Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Hyperparameter Optimization through Neural Network Partitioning [11.6941692990626]
本稿では,ニューラルネットワークにおけるハイパーパラメータの最適化をシンプルかつ効率的に行う方法を提案する。
本手法では,トレーニングデータとニューラルネットワークモデルをデータシャードとパラメータ分割に$K$に分割する。
我々は、この目的を単一のトレーニングランで様々なハイパーパラメータを最適化するために適用できることを実証した。
論文 参考訳(メタデータ) (2023-04-28T11:24:41Z) - DetOFA: Efficient Training of Once-for-All Networks for Object Detection
Using Path Filter [4.487368901635045]
本稿では,探索空間プルーニングを用いた高効率なスーパーネットベースニューラルネットワーク探索手法を提案する。
提案手法は,最適ネットワークアーキテクチャの計算コストを30%と63%削減する。
論文 参考訳(メタデータ) (2023-03-23T09:23:11Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - AdaGrid: Adaptive Grid Search for Link Prediction Training Objective [58.79804082133998]
トレーニングの目的は、モデルの性能と一般化能力に決定的に影響を及ぼす。
本稿では,訓練中にエッジメッセージの比率を動的に調整する適応グリッド探索(AdaGrid)を提案する。
AdaGridは、完全検索の9倍の時間効率を保ちながら、モデルの性能を1.9%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-30T09:24:17Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。