Fugu-MT 論文翻訳(概要): Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer

論文の概要: Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer

arxiv url: http://arxiv.org/abs/2102.03018v1
Date: Fri, 5 Feb 2021 06:23:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-08 14:07:26.332197
Title: Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer
Title（参考訳）: レイヤワイド適応レートスケーリング(LARS)最適化を用いたシステムMLのディープラーニング評価
Authors: Kanchan Chowdhury, Ankita Sharma and Arun Deepak Chandrasekar
Abstract要約: LARSをSystemMLを用いて実装したディープラーニングモデルに適用する。各種バッチサイズで実験を行い、LARSの性能を分散機械学習フレームワークと比較する。
参考スコア（独自算出の注目度）: 0.3857494091717916
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Increasing the batch size of a deep learning model is a challenging task. Although it might help in utilizing full available system memory during training phase of a model, it results in significant loss of test accuracy most often. LARS solved this issue by introducing an adaptive learning rate for each layer of a deep learning model. However, there are doubts on how popular distributed machine learning systems such as SystemML or MLlib will perform with this optimizer. In this work, we apply LARS optimizer to a deep learning model implemented using SystemML.We perform experiments with various batch sizes and compare the performance of LARS optimizer with \textit{Stochastic Gradient Descent}. Our experimental results show that LARS optimizer performs significantly better than Stochastic Gradient Descent for large batch sizes even with the distributed machine learning framework, SystemML.
Abstract（参考訳）: ディープラーニングモデルのバッチサイズを増加させることは、難しい課題です。モデルのトレーニングフェーズで利用可能なシステムメモリをフル活用するのに役立つかもしれないが、ほとんどの場合、テスト精度が著しく低下する。 LARSはディープラーニングモデルの各層に対して適応学習率を導入することでこの問題を解決した。しかし、SystemMLやMLlibのような分散機械学習システムが、このオプティマイザでどのように機能するかには疑問がある。本研究では, LARSオプティマイザをSystemMLを用いて実装したディープラーニングモデルに適用し, 各種バッチサイズでの実験を行い, LARSオプティマイザの性能を \textit{Stochastic Gradient Descent} と比較した。実験の結果,分散機械学習フレームワークであるSystemMLでも,LARSオプティマイザはStochastic Gradient Descentよりも大きなバッチサイズを実現していることがわかった。

関連論文リスト

AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文参考訳（メタデータ） (2025-06-16T09:14:01Z)
Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。 SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文参考訳（メタデータ） (2025-06-01T15:30:37Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。 LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
CubicML: Automated ML for Large ML Systems Co-design with ML Prediction of Performance [7.425372356516303]
ディープラーニングモデルのスケールアップは、機械学習モデル(ML)のインテリジェンスを改善するために有効であることが証明されている。本稿では,大規模分散MLシステムのトレーニング性能を自動最適化するCuicMLを提案する。我々は,CubicMLがメタ広告において,73億のパラメータと最大4050億のパラメータを持つ社内推薦モデルのトレーニング速度を効果的に最適化できることを証明した。
論文参考訳（メタデータ） (2024-09-06T19:55:21Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文参考訳（メタデータ） (2023-02-28T19:23:20Z)
An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文参考訳（メタデータ） (2023-02-18T13:25:04Z)
Machine Learning Methods for Spectral Efficiency Prediction in Massive MIMO Systems [0.0]
本研究では,特定のプリコーディング方式のスペクトル効率(SE)値を最短時間で推定する機械学習手法について検討する。平均パーセンテージ誤差(MAPE)の最も良い結果は、ソートされた特徴よりも勾配が上昇し、線形モデルは予測精度が悪くなることを示す。そこで本研究では,Quadrigaシミュレータによって生成される幅広いシナリオにおける提案アルゴリズムの実用性について検討する。
論文参考訳（メタデータ） (2021-12-29T07:03:10Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Robust MAML: Prioritization task buffer with adaptive learning process for model-agnostic meta-learning [15.894925018423665]
モデル非依存メタラーニング(MAML)は、最先端のメタラーニングアルゴリズムである。本稿では適応型学習方式と優先順位付けタスクバッファに基づくより堅牢なMAMLを提案する。メタ強化学習環境の実験結果は、実質的なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2021-03-15T09:34:34Z)
Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文参考訳（メタデータ） (2021-01-15T03:12:29Z)
Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文参考訳（メタデータ） (2020-10-31T08:05:34Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。