Fugu-MT 論文翻訳(概要): Bolstering Stochastic Gradient Descent with Model Building

論文の概要: Bolstering Stochastic Gradient Descent with Model Building

arxiv url: http://arxiv.org/abs/2111.07058v3
Date: Wed, 25 Oct 2023 08:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 07:04:52.304178
Title: Bolstering Stochastic Gradient Descent with Model Building
Title（参考訳）: モデル構築による確率勾配のボルスター化
Authors: S. Ilker Birbil, Ozgur Martin, Gonenc Onay, Figen Oztoprak
Abstract要約: 勾配降下法とその変種は、優れた収束率を達成するためのコア最適化アルゴリズムを構成する。本稿では,前方ステップモデル構築に基づく新しいアルゴリズムを用いて,線探索の代替手法を提案する。提案アルゴリズムは、よく知られたテスト問題において、より高速な収束とより優れた一般化を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the step length. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the step length but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods.
Abstract（参考訳）: 確率的勾配降下法とその変種は、機械学習問題を解決するための良好な収束率を達成するコア最適化アルゴリズムを構成する。これらのアルゴリズムが手元のアプリケーション用に微調整されている場合、これらのレートは特に得られる。このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップ長を反復的に調整する行探索法により,これらのコストを削減できることが示されている。本稿では,フォワードステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。このモデル構築ステップは、ステップ長だけでなく探索方向も調整可能な2階情報を含む。深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,そのモデルを構築し,各パラメータ群に対する新しいステップを算出する。この新しい対角化アプローチは、選択されたステップ長を適応させる。我々は収束率解析を行い,提案アルゴリズムがよく知られたテスト問題においてより高速な収束とより良い一般化を実現することを示す。より正確には、SMBはチューニングを少なくし、他の適応型メソッドと同等のパフォーマンスを示す。

関連論文リスト

DISC: Dynamic Decomposition Improves LLM Inference Scaling [54.87338295793453]
本稿では,解解と推理トレースを自動的に推論中のステップに分割する動的分解法を紹介する。コーディングと数学のベンチマークの実験は、動的分解が静的メソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2025-02-23T20:37:32Z)
Tuning-Free Bilevel Optimization: New Algorithms and Convergence Analysis [21.932550214810533]
そこで我々はD-TFBOとS-TFBOという2つの新しいチューニング自由アルゴリズムを提案する。 D-TFBOは「累積勾配ノルムの逆」戦略によって適応的に調整された段数を持つ二重ループ構造を用いる。 S-TFBOはより単純な完全な単一ループ構造で、3つの変数を同時に更新する。
論文参考訳（メタデータ） (2024-10-07T15:50:30Z)
Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文参考訳（メタデータ） (2023-05-17T06:22:11Z)
Online Learning Under A Separable Stochastic Approximation Framework [20.26530917721778]
分離可能な近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。提案アルゴリズムは,他の一般的な学習アルゴリズムと比較して,より堅牢でテスト性能が高いことを示す。
論文参考訳（メタデータ） (2023-05-12T13:53:03Z)
STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文参考訳（メタデータ） (2021-11-01T15:43:36Z)
Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文参考訳（メタデータ） (2021-04-30T08:50:24Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)
Learning to solve TV regularized problems with unrolled algorithms [18.241062505073234]
トータル・バージョニング(Total Variation、TV)は、一方向定値信号を促進する一般的な正規化戦略である。そこで我々は,2つのアプローチを開発し,そのメリットと限界を記述し,反復的な手順よりも実際に改善できる体制について議論する。
論文参考訳（メタデータ） (2020-10-19T14:19:02Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Optimizing generalization on the train set: a novel gradient-based framework to train parameters and hyperparameters simultaneously [0.0]
一般化は機械学習における中心的な問題である。本稿では,新たなリスク尺度に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-11T18:04:36Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。