論文の概要: Provable Benefit of Sign Descent: A Minimal Model Under Heavy-Tailed Class Imbalance
- arxiv url: http://arxiv.org/abs/2512.00763v1
- Date: Sun, 30 Nov 2025 07:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.406064
- Title: Provable Benefit of Sign Descent: A Minimal Model Under Heavy-Tailed Class Imbalance
- Title(参考訳): 重心不均衡下の最小モデルにおける手話の有益性
- Authors: Robin Yadav, Shuo Xie, Tianhao Wang, Zhiyuan Li,
- Abstract要約: 我々は,データ分布の特性,すなわち重み付きクラス不均衡から直接,$ell_infty$-norm 降下の利点について検討する。
我々は、座標アルゴリズムの高速収束を証明可能な、最小でも代表的な次世代予測設定を提案する。
- 参考スコア(独自算出の注目度): 12.08350675783261
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adaptive optimization methods (such as Adam) play a major role in LLM pretraining, significantly outperforming Gradient Descent (GD). Recent studies have proposed new smoothness assumptions on the loss function to explain the advantages of adaptive algorithms with structured preconditioners, e.g., coordinate-wise or layer-wise, and steepest descent methods w.r.t. non-euclidean norms, e.g., $\ell_\infty$ norm or spectral norm, over GD. However, it remains unclear how these smoothness assumptions manifest in language modelling tasks. In this work, we aim to analyze the benefit of $\ell_\infty$-norm descent (a.k.a. sign descent) directly from properties of the data distribution, namely, heavy-tailed class imbalance. We propose a minimal yet representative setting of next-token prediction, where we can provably show faster convergence of coordinate-wise algorithms such as Sign descent (steepest descent w.r.t. $\ell_\infty$ norm) over normalized GD (steepest descent w.r.t. to $\ell_2$ norm) in the presence of heavy tail class imbalance.
- Abstract(参考訳): 適応最適化法(例えばアダム)は、LLM事前学習において重要な役割を担い、グラディエント・Descent (GD) を著しく上回っている。
近年の研究では、非ユークリッドノルム (eg , $\ell_\infty$ norm) やスペクトルノルム (Spectral norm) など、非ユークリッドノルム (non-euclidean norms) など、非ユークリッドノルム (non-Euclidean norms) のように、構造化プレコンディショナー(英語版)や階層ワイド(英語版)といった適応アルゴリズムの利点を説明するために、損失関数に対する新たな滑らかさ仮定が提案されている。
しかし、これらの滑らかさの仮定が言語モデリングタスクにどのように現れるのかは、まだ不明である。
本研究は,データ分布の特性,すなわち重み付きクラス不均衡から直接,$\ell_\infty$-norm降下(符号降下)の利点を分析することを目的とする。
本稿では,正規化 GD (steepest descent w.r.t. $\ell_\infty$ norm) 上の符号降下 (steepest descent w.r.t. $\ell_\infty$ norm) のような座標系アルゴリズムの,重み付きテールクラス不均衡の存在下での高速収束を確実に示すことができる。
関連論文リスト
- FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Provable Complexity Improvement of AdaGrad over SGD: Upper and Lower Bounds in Stochastic Non-Convex Optimization [18.47705532817026]
適応勾配法は、最も成功したニューラルネットワークトレーニングアルゴリズムの一つである。
これらの手法は凸SGD-ノルマリティよりも次元依存性が優れていることが知られている。
本稿では,構造物の滑らかさと勾配雑音の分散に関する新しい仮定を紹介する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z) - The Geometry of Sign Gradient Descent [29.8753797565422]
分離可能滑らか性と $ell_infty$-smoothness との密接な関係を示し、後者はより弱でより自然な仮定であると主張する。
次に、 $ell_infty$-norm に関する滑らか性定数の研究を進め、目的関数の幾何学的性質を分離する。
つまり、(i)Hessianがその対角線に集中していること、(ii)その最大固有値が平均固有値よりもはるかに大きいこと。
論文 参考訳(メタデータ) (2020-02-19T08:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。