Fugu-MT 論文翻訳(概要): PASHA: Efficient HPO with Progressive Resource Allocation

論文の概要: PASHA: Efficient HPO with Progressive Resource Allocation

arxiv url: http://arxiv.org/abs/2207.06940v1
Date: Thu, 14 Jul 2022 14:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-15 13:10:53.872211
Title: PASHA: Efficient HPO with Progressive Resource Allocation
Title（参考訳）: PASHA: プログレッシブなリソース割り当てを備えたHPO
Authors: Ondrej Bohdal, Lukas Balles, Beyza Ermis, C\'edric Archambeau, Giovanni Zappella
Abstract要約: 計算リソースが限られている大規模データセットでトレーニングされた機械学習モデルのチューニングには、コストがかかる可能性がある。本稿では,限られた計算資源を持つ大規模データセット上で学習した機械学習モデルをチューニングすることの課題に対処するアプローチを提案する。 PASHAと呼ばれる我々の手法は、必要に応じてチューニング手順の最大リソースを動的に割り当てることができる。
参考スコア（独自算出の注目度）: 5.999777817331316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hyperparameter optimization (HPO) and neural architecture search (NAS) are methods of choice to obtain the best-in-class machine learning models, but in practice they can be costly to run. When models are trained on large datasets, tuning them with HPO or NAS rapidly becomes prohibitively expensive for practitioners, even when efficient multi-fidelity methods are employed. We propose an approach to tackle the challenge of tuning machine learning models trained on large datasets with limited computational resources. Our approach, named PASHA, is able to dynamically allocate maximum resources for the tuning procedure depending on the need. The experimental comparison shows that PASHA identifies well-performing hyperparameter configurations and architectures while consuming significantly fewer computational resources than solutions like ASHA.
Abstract（参考訳）: ハイパーパラメータ最適化(HPO)とニューラルアーキテクチャサーチ(NAS)は、クラス内で最高の機械学習モデルを得るために選択される方法であるが、実際には実行にはコストがかかる。大規模なデータセットでモデルがトレーニングされると、HPOやNASでモデルをチューニングすることは、効率的なマルチフィデリティメソッドを採用する場合でも、実践者にとって急速に高価になる。本稿では,限られた計算資源を持つ大規模データセット上で学習した機械学習モデルをチューニングする手法を提案する。 PASHAと呼ばれる我々の手法は、必要に応じてチューニング手順の最大リソースを動的に割り当てることができる。実験による比較では、PASHAは、ASHAのようなソリューションよりも計算資源をはるかに少なく消費しながら、優れたパフォーマンスのハイパーパラメータ構成とアーキテクチャを特定する。

関連論文リスト

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文参考訳（メタデータ） (2025-01-23T02:14:08Z)
Resource-Adaptive Successive Doubling for Hyperparameter Optimization with Large Datasets on High-Performance Computing Systems [0.4334105740533729]
本稿では,資源適応型逐次二重化アルゴリズム(RASDA)を提案する。リソース適応型逐次二重化スキームと非同期逐次Halving Algorithm(ASHA)を組み合わせる。ニューラルネットワーク(NN)のさまざまなタイプに適用され、コンピュータビジョン(CV)、計算流体力学(CFD)、追加製造(AM)ドメインからの大規模なデータセットでトレーニングされる。
論文参考訳（メタデータ） (2024-12-03T11:25:48Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである様々なHPOアプローチの比較が可能であり、高い効率で評価できる。 ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文参考訳（メタデータ） (2024-09-27T15:22:28Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Grassroots Operator Search for Model Edge Adaptation [2.1756721838833797]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)は、効率的なディープラーニングアーキテクチャの設計にますます利用されている。効率的な演算子置換を探索するために,Grassroots Operator Search (GOS) 手法を提案する。提案手法は,2つのエッジデバイスにおいて,精度を保ちながら,最小2.2倍の高速化を実現した。
論文参考訳（メタデータ） (2023-09-20T12:15:58Z)
Two-step hyperparameter optimization method: Accelerating hyperparameter search by using a fraction of a training dataset [0.15420205433587747]
計算要求と待ち時間を抑制するための戦略的ソリューションとして,2段階のHPO法を提案する。我々は最近の2段階HPO法のエアロゾル活性化のためのニューラルネットワークエミュレータ開発への応用について述べる。
論文参考訳（メタデータ） (2023-02-08T02:38:26Z)
Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文参考訳（メタデータ） (2022-01-26T20:43:13Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Efficient Model Performance Estimation via Feature Histories [27.008927077173553]
ニューラルネットワーク設計のタスクにおける重要なステップは、モデルの性能を評価することである。この研究では、トレーニングの初期段階におけるネットワークの機能の進化履歴を使用して、プロキシ分類器を構築します。本手法は,複数の探索アルゴリズムと組み合わせ,より幅広いタスクに対するより良い解を見つけることができることを示す。
論文参考訳（メタデータ） (2021-03-07T20:41:57Z)
Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2021-01-20T13:07:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。