論文の概要: Sign-SGD is the Golden Gate between Multi-Node to Single-Node Learning: Significant Boost via Parameter-Free Optimization
- arxiv url: http://arxiv.org/abs/2506.03725v1
- Date: Wed, 04 Jun 2025 08:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.246979
- Title: Sign-SGD is the Golden Gate between Multi-Node to Single-Node Learning: Significant Boost via Parameter-Free Optimization
- Title(参考訳): Sign-SGDはマルチノードとシングルノード学習の間のゴールデンゲート:パラメータフリー最適化による重要なブースト
- Authors: Daniil Medyakov, Sergey Stanko, Gleb Molodtsov, Philip Zmushko, Grigoriy Evseev, Egor Petrov, Aleksandr Beznosikov,
- Abstract要約: Sign-SGDは、単一ノードトレーニングにおけるメモリ効率のよいアプローチであり、分散学習における勾配圧縮技術である。
理論的な観点から有効段数を自動的に決定することは不可能である。
我々は、一つのノードと複数のノードの学習、モメンタムを組み込んだ手法にアプローチを拡張します。
- 参考スコア(独自算出の注目度): 40.46069444885658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quite recently, large language models have made a significant breakthrough across various disciplines. However, training them is an extremely resource-intensive task, even for major players with vast computing resources. One of the methods gaining popularity in light of these challenges is Sign-SGD. This method can be applied both as a memory-efficient approach in single-node training and as a gradient compression technique in the distributed learning. Nevertheless, it is impossible to automatically determine the effective stepsize from the theoretical standpoint. Indeed, it depends on the parameters of the dataset to which we do not have access in the real-world learning paradigm. To address this issue, we design several variants of single-node deterministic Sign-SGD. We extend our approaches to practical scenarios: stochastic single-node and multi-node learning, methods with incorporated momentum. We conduct extensive experiments on real machine learning problems that emphasize the practical applicability of our ideas.
- Abstract(参考訳): 最近では、様々な分野において大きな言語モデルが大きなブレークスルーを遂げている。
しかし、これらのトレーニングは非常にリソース集約的なタスクであり、巨大なコンピューティングリソースを持つメジャーなプレイヤーにとってもなおさらだ。
これらの課題から人気を得た方法の1つはSign-SGDである。
この方法は、単ノード学習におけるメモリ効率のよいアプローチと、分散学習における勾配圧縮技術の両方に応用できる。
それでも、理論的な観点から有効段数を自動的に決定することは不可能である。
実際、それは実際の学習パラダイムにアクセスできないデータセットのパラメータに依存する。
この問題に対処するために、単一ノード決定性符号-SGDのいくつかの変種を設計する。
我々は,確率的単一ノード学習とマルチノード学習,モーメントを組み込んだ手法という,実践的なシナリオにアプローチを拡張した。
我々は、我々のアイデアの実践的適用性を強調した、実際の機械学習問題に関する広範な実験を行う。
関連論文リスト
- Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks [6.805997961535213]
Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。
学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。
本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
論文 参考訳(メタデータ) (2025-01-22T09:13:47Z) - Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。
Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。
メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文 参考訳(メタデータ) (2025-01-21T13:25:32Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - S-Prompts Learning with Pre-trained Transformers: An Occam's Razor for
Domain Incremental Learning [47.35363657976161]
最先端のディープニューラルネットワークは、継続的な学習における破滅的な忘れの問題にまだ対処できていない。
そこで本研究では,S-Prompting(S-Prompting)と呼ばれる単純なパラダイムと,忘れる度合いを高く抑えるための2つの具体的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-26T11:30:47Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。