論文の概要: From Logistic Regression to the Perceptron Algorithm: Exploring Gradient Descent with Large Step Sizes
- arxiv url: http://arxiv.org/abs/2412.08424v1
- Date: Wed, 11 Dec 2024 14:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:39.623429
- Title: From Logistic Regression to the Perceptron Algorithm: Exploring Gradient Descent with Large Step Sizes
- Title(参考訳): ロジスティック回帰からパーセプトロンアルゴリズム:大きなステップサイズでグラディエントな輝きを探索する
- Authors: Alexander Tyurin,
- Abstract要約: 分離可能なデータセットによる分類問題に焦点をあてる。
近年の研究では、LR+GDは任意のステップサイズで解を見つけることができる。
- 参考スコア(独自算出の注目度): 57.93371273485736
- License:
- Abstract: We focus on the classification problem with a separable dataset, one of the most important and classical problems from machine learning. The standard approach to this task is logistic regression with gradient descent (LR+GD). Recent studies have observed that LR+GD can find a solution with arbitrarily large step sizes, defying conventional optimization theory. Our work investigates this phenomenon and makes three interconnected key observations about LR+GD with large step sizes. First, we find a remarkably simple explanation of why LR+GD with large step sizes solves the classification problem: LR+GD reduces to a batch version of the celebrated perceptron algorithm when the step size $\gamma \to \infty.$ Second, we observe that larger step sizes lead LR+GD to higher logistic losses when it tends to the perceptron algorithm, but larger step sizes also lead to faster convergence to a solution for the classification problem, meaning that logistic loss is an unreliable metric of the proximity to a solution. Surprisingly, high loss values can actually indicate faster convergence. Third, since the convergence rate in terms of loss function values of LR+GD is unreliable, we examine the iteration complexity required by LR+GD with large step sizes to solve the classification problem and prove that this complexity is suboptimal. To address this, we propose a new method, Normalized LR+GD - based on the connection between LR+GD and the perceptron algorithm - with much better theoretical guarantees.
- Abstract(参考訳): 我々は、機械学習から最も重要で古典的な問題の一つである、分離可能なデータセットによる分類問題に焦点を当てる。
このタスクの標準的なアプローチは、勾配降下(LR+GD)によるロジスティック回帰である。
近年の研究では、LR+GDは任意のステップサイズで解を見つけることができ、従来の最適化理論を否定している。
本研究は,この現象を解明し,大きなステップサイズを持つLR+GDに関する3つの重要な観測を行った。
LR+GDは、ステップサイズが$\gamma \to \inftyのとき、有名なパーセプトロンアルゴリズムのバッチバージョンに還元される。
第二に、より大きなステップサイズがLR+GDをパーセプトロンアルゴリズムよりも高いロジスティック損失に導くが、より大きなステップサイズは、分類問題の解への高速な収束をもたらす。
驚くべきことに、高い損失値は実際により高速な収束を示す可能性がある。
第三に、LR+GDの損失関数値の収束速度は信頼性が低いため、LR+GDが大きなステップサイズで必要とするイテレーションの複雑さを調べて、この複雑さが最適以下であることを証明する。
そこで本研究では,LR+GDとパーセプトロンアルゴリズムの接続に基づく正規化LR+GDを提案する。
関連論文リスト
- Where Do Large Learning Rates Lead Us? [5.305784285588872]
小さいLRや重量平均値で微調整を行った結果,初期LRの幅が狭いだけで最適な結果が得られた。
これらの初期LRは、タスクに最も関係のある機能に明確に焦点を合わせながら、学習された機能の集合を疎結合にしていることを示す。
対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
論文 参考訳(メタデータ) (2024-10-29T15:14:37Z) - ClearSR: Latent Low-Resolution Image Embeddings Help Diffusion-Based Real-World Super Resolution Models See Clearer [68.72454974431749]
本稿では、拡散に基づく実世界の超解像(Real-ISR)に対する潜在低分解能画像(LR)埋め込みの利点を活かす新しい手法であるClearSRを提案する。
提案モデルでは,複数のテストセット上で複数の測定値にまたがる性能が向上し,既存の手法よりもLR画像でより一貫したSR結果が得られる。
論文 参考訳(メタデータ) (2024-10-18T08:35:57Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Stable Phase Retrieval with Mirror Descent [0.5312303275762104]
ミラー降下は位相探索問題の臨界点に収束することを示す。
我々は、高い確率でミラー降下が真のベクトルに近い大域最小化器に収束することを保証する大域収束保証を提供する。
論文 参考訳(メタデータ) (2024-05-17T13:07:14Z) - Label Ranking through Nonparametric Regression [5.994412766684843]
ラベルランキング(英: Label Ranking)とは、有限個のラベルの上のランクに特徴をマップする仮説を学習する問題である。
雑音のない非パラメトリック回帰設定において,ラベルランク付けのための生成モデルを導入する。
我々は,入力回帰雑音が観測された出力にどのように影響するかを理解することを目的として,実験による理論的貢献を補完する。
論文 参考訳(メタデータ) (2021-11-04T10:59:46Z) - A Deep Residual Star Generative Adversarial Network for multi-domain
Image Super-Resolution [21.39772242119127]
Super-Resolution Residual StarGAN (SR2*GAN) は、単一のモデルのみを用いて複数のLRドメインのLR画像を超解する、新しくスケーラブルなアプローチである。
提案手法は,他の最先端手法と比較して定量的,定性的実験において有効であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:15:17Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - Closed-loop Matters: Dual Regression Networks for Single Image
Super-Resolution [73.86924594746884]
ディープニューラルネットワークは、画像超解像において有望な性能を示した。
これらのネットワークは、低分解能(LR)画像から高分解能(HR)画像への非線形マッピング関数を学習する。
本稿では,可能な関数の空間を削減するために,LRデータに新たな制約を導入することで,二重回帰手法を提案する。
論文 参考訳(メタデータ) (2020-03-16T04:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。