論文の概要: Hyperparameter Selection in Continual Learning
- arxiv url: http://arxiv.org/abs/2404.06466v2
- Date: Fri, 14 Mar 2025 13:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:31.383283
- Title: Hyperparameter Selection in Continual Learning
- Title(参考訳): 連続学習におけるハイパーパラメータの選択
- Authors: Thomas L. Lee, Sigrid Passano Hellan, Linus Ericsson, Elliot J. Crowley, Amos Storkey,
- Abstract要約: 学習者がデータのストリームでトレーニングを行う連続学習(CL)では、標準パラメータ最適化(HPO)を適用することはできない。
学習者がストリームを一度しか見ることができないため、トレーニング終了のHPOは実際には使用できない。
我々は、トレーニング終了を含むHPOフレームワークが、人気のあるCLベンチマークの他のフレームワークよりも一貫してパフォーマンスが向上していることを発見した。
- 参考スコア(独自算出の注目度): 6.419602857618507
- License:
- Abstract: In continual learning (CL) -- where a learner trains on a stream of data -- standard hyperparameter optimisation (HPO) cannot be applied, as a learner does not have access to all of the data at the same time. This has prompted the development of CL-specific HPO frameworks. The most popular way to tune hyperparameters in CL is to repeatedly train over the whole data stream with different hyperparameter settings. However, this end-of-training HPO is unusable in practice since a learner can only see the stream once. Hence, there is an open question: what HPO framework should a practitioner use for a CL problem in reality? This paper looks at this question by comparing several realistic HPO frameworks. We find that none of the HPO frameworks considered, including end-of-training HPO, perform consistently better than the rest on popular CL benchmarks. We therefore arrive at a twofold conclusion: a) to be able to discriminate between HPO frameworks there is a need to move beyond the current most commonly used CL benchmarks, and b) on the popular CL benchmarks examined, a CL practitioner should use a realistic HPO framework and can select it based on factors separate from performance, for example compute efficiency.
- Abstract(参考訳): 学習者がデータストリームでトレーニングする連続学習(CL)では、学習者が同時にすべてのデータにアクセスできないため、標準のハイパーパラメータ最適化(HPO)を適用することはできない。
これによりCL固有のHPOフレームワークの開発が進められた。
CLでハイパーパラメータをチューニングする最も一般的な方法は、異なるハイパーパラメータ設定でデータストリーム全体を繰り返しトレーニングすることです。
しかし、学習者がストリームを一度しか見ることができないため、この訓練終了HPOは実際には使用できない。
したがって、オープンな疑問がある。実践者が実際にCL問題に使用するHPOフレームワークは何か?
本稿では,複数の現実的なHPOフレームワークを比較して,この問題を考察する。
我々は、トレーニング終了を含むHPOフレームワークが、人気のあるCLベンチマークの他のフレームワークよりも一貫してパフォーマンスが向上していることを発見した。
したがって、我々は次の2つの結論に達した。
a) HPOフレームワーク間で差別化が可能であるためには、現在の最も一般的に使用されているCLベンチマークを超えて移動する必要がある。
b) 検討された一般的なCLベンチマークでは、CL実践者は現実的なHPOフレームワークを使用し、例えば計算効率など、パフォーマンスとは別の要因に基づいてそれを選択すべきである。
関連論文リスト
- ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
CLアルゴリズムの従来の評価プロトコルは、与えられたシナリオで最適なハイパーパラメータを選択し、同じシナリオでアルゴリズムを評価する。
このプロトコルには大きな欠点があり、アルゴリズムのCL能力を過大評価し、非現実的なハイパーパラメータチューニングに依存している。
CLアルゴリズムの評価は,予測できないシナリオに対するCL能力の一般化性を評価することに集中すべきである,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - FedHPO-B: A Benchmark Suite for Federated Hyperparameter Optimization [50.12374973760274]
本稿では,包括的FLタスクを組み込んだベンチマークスイートFedHPO-Bを提案する。
我々はまた、FedHPO-Bに基づく広範な実験を行い、いくつかのHPO法をベンチマークする。
論文 参考訳(メタデータ) (2022-06-08T15:29:10Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Hyperparameter Optimization: Foundations, Algorithms, Best Practices and
Open Challenges [5.139260825952818]
本稿では,グリッドやランダム検索,進化アルゴリズム,ベイズ最適化,ハイパーバンド,レースなどの重要なHPO手法について述べる。
HPOアルゴリズム自体、パフォーマンス評価、HPOとMLパイプラインの結合方法、ランタイムの改善、並列化など、HPOの実行時に行うべき重要な選択について、実用的なレコメンデーションを提供する。
論文 参考訳(メタデータ) (2021-07-13T04:55:47Z) - An Empirical Study on Hyperparameter Optimization for Fine-Tuning
Pre-trained Language Models [10.599060942412144]
GLUEデータセット上で2つの最先端言語モデルを微調整したHPOアルゴリズムの性能について検討・報告する。
同じ時間予算で、HPOは2つの理由でグリッド検索を上回りません。
論文 参考訳(メタデータ) (2021-06-17T01:58:32Z) - Practical and sample efficient zero-shot HPO [8.41866793161234]
利用可能なアプローチの概要と、この問題に対処する2つの新しいテクニックを紹介します。
1つは、サロゲートモデルに基づいて、クエリのためのデータセットと設定のペアを適応的に選択する。
2つ目は、サロゲートモデルの検出、チューニング、テストが問題となる設定のためのもので、HyperBandとサブモジュラー最適化を組み合わせた多要素技術である。
論文 参考訳(メタデータ) (2020-07-27T08:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。