論文の概要: Adjusting Model Size in Continual Gaussian Processes: How Big is Big Enough?
- arxiv url: http://arxiv.org/abs/2408.07588v2
- Date: Fri, 13 Dec 2024 19:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:33.578947
- Title: Adjusting Model Size in Continual Gaussian Processes: How Big is Big Enough?
- Title(参考訳): 連続ガウス過程におけるモデルサイズ調整: どのくらい大きなのか?
- Authors: Guiomar Pescador-Barrios, Sarah Filippi, Mark van der Wilk,
- Abstract要約: 多くの機械学習モデルでは、トレーニング前にサイズを制御するパラメータを設定する必要がある。
「これは、どのくらい大きいのか」という疑問に繋がる。
ここでは、データが漸進的に利用可能になるため、最終的なデータセットサイズはトレーニング前には分かっていない。
最適な性能を維持しつつ,モデルサイズを自動的に調整する手法を開発した。
- 参考スコア(独自算出の注目度): 11.43983519639935
- License:
- Abstract: Many machine learning models require setting a parameter that controls their size before training, e.g.~number of neurons in DNNs, or inducing points in GPs. Increasing capacity typically improves performance until all the information from the dataset is captured. After this point, computational cost keeps increasing without improved performance. This leads to the question ``How big is big enough?'' We investigate this problem for Gaussian processes (single-layer neural networks) in continual learning. Here, data becomes available incrementally, and the final dataset size will therefore not be known before training, preventing the use of heuristics for setting a fixed model size. We develop a method to automatically adjust model size while maintaining near-optimal performance. Our experimental procedure follows the constraint that any hyperparameters must be set without seeing dataset properties. For our method, a single hyperparameter setting works well across diverse datasets, showing that it requires less tuning compared to others.
- Abstract(参考訳): 多くの機械学習モデルでは、トレーニング前にサイズを制御するパラメータを設定し、DNNのニューロンの数やGPのポイントを誘導する必要がある。
キャパシティの増大は、通常、データセットからのすべての情報がキャプチャされるまでパフォーマンスを改善する。
この時点以降、計算コストはパフォーマンスを向上することなく増加し続ける。
これは、連続学習におけるガウス的プロセス(単層ニューラルネットワーク)に対するこの問題を調査する。
ここでは、データが段階的に利用可能になり、従って最終的なデータセットサイズがトレーニング前に知られなくなるため、固定モデルサイズの設定にヒューリスティックの使用が防止される。
ほぼ最適性能を維持しながらモデルサイズを自動的に調整する手法を開発した。
我々の実験的な手順は、データセットの特性を見ることなく任意のハイパーパラメータを設定しなければならないという制約に従う。
提案手法では,複数のデータセットにまたがって単一のハイパーパラメータ設定がうまく動作し,他のデータセットに比べてチューニングが少ないことを示す。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。
本稿では,学習率スケジューラであるPowerスケジューラを提案する。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-23T20:22:20Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。