Fugu-MT 論文翻訳(概要): Training Deep Learning Models with Norm-Constrained LMOs

論文の概要: Training Deep Learning Models with Norm-Constrained LMOs

arxiv url: http://arxiv.org/abs/2502.07529v1
Date: Tue, 11 Feb 2025 13:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.15514
Title: Training Deep Learning Models with Norm-Constrained LMOs
Title（参考訳）: Norm-Constrained LMOを用いたディープラーニングモデルの訓練
Authors: Thomas Pethick, Wanyun Xie, Kimon Antonakopoulos, Zhenyu Zhu, Antonio Silveti-Falls, Volkan Cevher,
Abstract要約: 正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
参考スコア（独自算出の注目度）: 56.00317694850397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we study optimization methods that leverage the linear minimization oracle (LMO) over a norm-ball. We propose a new stochastic family of algorithms that uses the LMO to adapt to the geometry of the problem and, perhaps surprisingly, show that they can be applied to unconstrained problems. The resulting update rule unifies several existing optimization methods under a single framework. Furthermore, we propose an explicit choice of norm for deep architectures, which, as a side benefit, leads to the transferability of hyperparameters across model sizes. Experimentally, we demonstrate significant speedups on nanoGPT training without any reliance on Adam. The proposed method is memory-efficient, requiring only one set of model weights and one set of gradients, which can be stored in half-precision.
Abstract（参考訳）: 本研究では,リニア最小化オラクル(LMO)をノルムボール上で活用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しい確率論的アルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。結果として得られた更新ルールは、1つのフレームワークの下で既存の最適化メソッドを統一する。さらに,深層アーキテクチャのノルムを明示的に選択することを提案する。これは副次的な利点として,モデルサイズ間でのハイパーパラメータの転送可能性をもたらす。実験では,Adamに頼らずにナノGPTトレーニングの大幅な高速化を示す。提案手法はメモリ効率が高く, モデル重みが1組, 勾配が1組のみ必要であり, 半精度で保存できる。

関連論文リスト

Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes [3.246129789918632]
ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。そこで本研究では,SAMTを用いた列車最小化手法を提案する。 SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
論文参考訳（メタデータ） (2025-08-06T08:23:38Z)
Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [38.99428012275441]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文参考訳（メタデータ） (2025-06-04T20:27:17Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Go With the Flow: Fast Diffusion for Gaussian Mixture Models [13.03355083378673]
Schr"odinger Bridges (SB) は、適切なコスト関数を最小化しながら、有限時間で与えられた初期分布を他の最終状態に分配する拡散過程である。本稿では,ある分布から別の分布へシステムをステアリングするための一組のSBポリシーの潜在メトリゼーションを提案する。オートエンコーダの空間における画像から画像への変換のような低次元問題におけるこのアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-12-12T08:40:22Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文参考訳（メタデータ） (2024-08-16T19:52:53Z)
A Two-Stage Training Method for Modeling Constrained Systems With Neural Networks [3.072340427031969]
本稿では,ニューラルネットワークの2段階学習法について詳述する。最初の段階は、制約違反の尺度を最小化することで、実現可能なNNパラメータを見つけることを目的としている。第2段階は、許容領域内に留まりながら損失関数を最小化することにより、最適なNNパラメータを見つけることを目的としている。
論文参考訳（メタデータ） (2024-03-05T07:37:47Z)
Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。 EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文参考訳（メタデータ） (2023-12-10T15:22:30Z)
MAST: Model-Agnostic Sparsified Training [4.962431253126472]
我々は、ブラックボックス関数として機械学習モデル損失を最小限に抑える従来の方法から外れた、新しい最適化問題の定式化を導入する。従来の定式化とは異なり、提案手法は、初期訓練されたモデルとランダムスケッチ演算子を明示的に組み込む。本稿では,新しい問題定式化に適応したグラディエント・ディキセント法(SGD)のいくつかの変種について述べる。
論文参考訳（メタデータ） (2023-11-27T18:56:03Z)
Improving generalization in large language models by learning prefix subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文参考訳（メタデータ） (2023-10-24T12:44:09Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
An Adaptive Incremental Gradient Method With Support for Non-Euclidean Norms [19.41328109094503]
そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。一般的な設定の下で収束保証を確立する。我々は、非ユークリッドノルムをサポートするためにSAGAの分析を改善した。
論文参考訳（メタデータ） (2022-04-28T09:43:07Z)
Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文参考訳（メタデータ） (2022-03-19T13:39:49Z)
Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文参考訳（メタデータ） (2021-02-16T06:04:27Z)
Conditional Neural Architecture Search [5.466990830092397]
これは、よく訓練されたMLモデルがエッジプラットフォームをデプロイする制約に適合しない場合が多い。本稿では,異なるプラットフォームで実現可能なMLモデルを生成するGANを用いた条件付きニューラルネットワーク探索手法を提案する。
論文参考訳（メタデータ） (2020-06-06T20:39:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。