論文の概要、ライセンス

# (参考訳) モデル構築による確率勾配のボルスター化 [全文訳有]

Bolstering Stochastic Gradient Descent with Model Building ( http://arxiv.org/abs/2111.07058v1 )

ライセンス: CC BY 4.0
S. Ilker Birbil, Ozgur Martin, Gonenc Onay, Figen Oztoprak(参考訳) 確率的勾配降下法とその変種は、機械学習問題を解決するための良好な収束率を達成するコア最適化アルゴリズムを構成する。 これらのアルゴリズムが手元のアプリケーション用に微調整されている場合、これらのレートは特に得られる。 このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップサイズを反復的に調整する行探索法により,これらのコストを削減できることが示されている。 本稿では,フォワードステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。 このモデル構築ステップには、ステップ化だけでなく、検索方向も調整できる2次情報が含まれる。 深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,そのモデルを構築し,各パラメータ群に対する新しいステップを算出する。 この新しい対角化アプローチは、選択されたステップ長を適応させる。 収束率解析を行い、提案アルゴリズムがほとんどの問題においてより高速な収束とより良い一般化を実現することを示す。 また,本手法は幅広い初期ステップに対して収束するので,提案手法は非常に頑健であることを示す。

Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the stepsize. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates a second-order information that allows adjusting not only the stepsize but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in most problems. Moreover, our experiments show that the proposed method is quite robust as it converges for a wide range of initial stepsizes.
公開日: Sat, 13 Nov 2021 06:54:36 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 v o N 3 1 1 2 0 2 v o n 3 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 8 5 0 7 0 1 v 8 5 0 7 0 0.43
. 1 1 1 2 : v i X r a . 1 1 1 2 : v i X r a 0.42
Bolstering Stochastic Gradient Descent with Model Building モデル構築による確率勾配のボルスター化 0.64
University of Amsterdam, 11018 TV Amsterdam, The Netherlands アムステルダム大学、11018年、アムステルダム、オランダ 0.62
Ş. İlker Birbil Ş. アルカー・ビルビル 0.29
Mimar Sinan Fine Arts University, 34380 Istanbul, Turkey トルコ, 34380イスタンブール, ミマール・シナン美術大学 0.56
Özgür Martin シュニュル・マルティン 0.31
d4c.ai - AI & Analytics, 34710 Istanbul, Turkey d4c.ai - AI & Analytics, 34710 Istanbul, Turkey 0.43
Gönenç Onay Gönenç Onay 0.42
Artelys Corporation, 60601 Chicago, IL – USA Artelys Corporation, 60601 Chicago, IL – USA 0.43
Figen Öztoprak フィゲン・エズトプラク(figen öztoprak) 0.24
Abstract: Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. 要約:確率勾配降下法とその変種は、機械学習問題を解決するための良好な収束率を達成するコア最適化アルゴリズムを構成する。 0.74
These rates are obtained especially when these algorithms are fine-tuned for the application at hand. これらのアルゴリズムが手元のアプリケーション用に微調整されている場合、これらのレートは特に得られる。
訳抜け防止モード: 特にこのレートは これらのアルゴリズムは、手元のアプリケーション用に調整されている。
0.67
Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the stepsize. このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップサイズを反復的に調整する行探索法により,これらのコストを削減できることが示されている。 0.63
We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. 本稿では,フォワードステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。 0.80
This model building step incorporates a second-order information that allows adjusting not only the stepsize but also the search direction. このモデル構築ステップには、ステップ化だけでなく、検索方向も調整できる2次情報が含まれる。 0.80
Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. 深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,そのモデルを構築し,各パラメータ群に対する新しいステップを算出する。 0.88
This novel diagonalization approach makes the selected step lengths adaptive. この新しい対角化アプローチは、選択されたステップ長を適応させる。 0.59
We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in most problems. 収束率解析を行い、提案アルゴリズムがほとんどの問題においてより高速な収束とより良い一般化を実現することを示す。 0.70
Moreover, our experiments show that the proposed method is quite robust as it converges for a wide range of initial stepsizes. また,本手法は幅広い初期ステップに対して収束するので,提案手法は非常に頑健であることを示す。 0.77
Keywords: model building; second-order information; stochastic gradient descent; convergence analysis キーワード:モデル構築、二階情報、確率勾配降下、収束解析 0.78
Stochastic gradient descent (SGD) is a popular optimization algorithm for machine learning problems which can achieve very fast convergence rates when its stepsize and its scheduling are tuned well for the specific application at hand. 確率勾配勾配(SGD)は機械学習問題に対する一般的な最適化アルゴリズムであり、ステップサイズとスケジューリングが手前の特定のアプリケーションによく調整されたときに非常に高速な収束率を達成することができる。 0.75
This tuning procedure can take up to thousands of CPU/GPU days resulting in big energy costs (Asi and Duchi, 2019). このチューニング手順は、数千のCPU/GPU日を要し、大きなエネルギーコストをもたらす(Asi and Duchi, 2019)。 0.77
A number of researchers have studied adaptive strategies for improving the direction and the stepsize choices of the stochastic gradient descent algorithm. 多くの研究者が確率勾配降下アルゴリズムの方向と段差選択を改善するための適応戦略を研究している。 0.85
Adaptive sample size selection ideas (Byrd et al , 2012; Balles et al , 2016; Bollapragada et al , 2018) improve the direction by reducing its variance around the negative gradient of the empirical loss function, while stochastic quasi-Newton algorithms (Byrd et al , 2016; Wang et al , 2017) provide adaptive preconditioning. 適応的なサンプルサイズ選択のアイデア(Byrd et al , 2012; Balles et al , 2016; Bollapragada et al , 2018)は、経験的損失関数の負の勾配に関する分散を減少させ、確率的準ニュートンアルゴリズム(Byrd et al , 2016; Wang et al , 2017)は適応的事前条件を提供する。 0.81
Recently, several stochastic line search approaches have been proposed. 近年,いくつかの確率線探索手法が提案されている。 0.61
Not surprisingly, some of these work cover sample size selection as a component of the proposed line search algorithms (Balles et al , 2016; Paquette and Scheinberg, 2020). これらの研究のいくつかは、提案された行探索アルゴリズムの構成要素としてサンプルサイズの選択をカバーしている(Balles et al , 2016; Paquette and Scheinberg, 2020)。 0.74
The Stochastic Model Building (SMB) algorithm proposed in this paper is not designed as a stochastic quasi-Newton algorithm in the sense explained by Bottou et al (2018). 本論文で提案する確率モデル構築(SMB)アルゴリズムは,Bottou et al (2018)によって説明された意味での確率的準ニュートンアルゴリズムとして設計されていない。 0.70
However, it still produces a scaling matrix in the process of generating trial points, and its overall step at each outer iteration can be written in the form of matrix-vector multiplication. しかし、試験点を生成する過程ではまだスケーリング行列を生成しており、各外部反復における全体的なステップは行列-ベクトル乗算の形で記述することができる。 0.78
Unlike the algorithms proposed by Mokhtari and Ribeiro (2014) and Schraudolph et al (2007), we have no accumulation of curvature pairs throughout several iterations. Mokhtari と Ribeiro (2014) と Schraudolph et al (2007) によって提案されたアルゴリズムとは異なり、数回の反復を通して曲率対は蓄積されない。 0.71
Since there is no memory carried from earlier iterations, the scaling matrices in individual past iterations are based only on the data samples employed in those iterations. 以前のイテレーションからメモリが持たないため、過去のイテレーションのスケーリング行列は、これらのイテレーションで使用されるデータサンプルのみに基づいています。 0.75
In other words, the scaling matrix and the incumbent random gradient vector are dependent. 言い換えると、スケーリング行列と既存のランダム勾配ベクトルは依存する。 0.60
Vaswani et al (2019) apply a deterministic globalization procedure on mini-batch loss functions. Vaswani et al (2019) はミニバッチ損失関数に対して決定論的グローバリゼーション手順を適用する。 0.68
That is, the same sample is used in all function and gradient evaluations needed to apply the line search procedure at a given iteration. すなわち、同じサンプルを任意の反復で行探索手順を適用するために必要なすべての関数および勾配評価に使用する。 0.80
However, unlike our case, they employ a standard line search procedure that does not alter the search direction. しかし,本例と異なり,検索方向を変化させない標準的な行探索手法を採用している。 0.81
They establish convergence guarantees for the empirical loss function under the interpolation assumption, which requires each component loss function to have zero gradient at a minimizer of the empirical loss. 彼らは補間仮定の下で経験損失関数の収束保証を確立し、各成分損失関数は経験損失の最小値でゼロ勾配を持つ必要がある。 0.73
Mutschler and Zell (2020) assume that the optimal learning rate along the negative batch gradient is a good estimator for the optimal learning rate with respect to the empirical loss along the same direction. Mutschler と Zell (2020) は、負のバッチ勾配に沿った最適学習率が、同じ方向に沿った経験的損失に対する最適学習率のよい推定指標であると仮定した。 0.82
They test validity of this assumption empirically on deep neural networks (DNNs). 彼らはこの仮定の妥当性をディープニューラルネットワーク(DNN)で実証的に検証した。 0.52
Rather than making such strong assumptions, we stick to the general theory for stochastic quasi-Newton methods. このような強い仮定をするよりも、確率的準ニュートン法の一般理論に固執する。 0.69
1 1 0.43
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
2 Other work follow a different approach to translate deterministic line search procedures into a stochastic setting, and they do not employ fixed samples. 2 他の研究は、決定論的ラインサーチ手順を確率的な設定に変換する別のアプローチに従っており、それらは固定サンプルを使用しない。
訳抜け防止モード: 2 他の研究は、決定論的ライン探索手順を確率的設定に変換する別のアプローチに従う。 固定サンプルは使っていません
0.57
In Mahsereci and Hennig (2017), a probabilistic model along the search direction is constructed via techniques from Bayesian optimization. Mahsereci and Hennig (2017) では、探索方向に沿った確率モデルがベイズ最適化の手法を用いて構築されている。 0.63
Learning rates are chosen to maximize the expected improvement with respect to this model and the probability of satisfying Wolfe conditions. 学習率は、このモデルに関して期待される改善とウルフ条件を満たす確率を最大化するために選択される。
訳抜け防止モード: 学習率が選択される このモデルに対する期待された改善とウルフ条件を満たす確率を最大化する。
0.88
Paquette and Scheinberg (2020) suggest an algorithm closer to the deterministic counterpart where the convergence is based on the requirement that the stochastic function and gradient evaluations approximate their true values with a high enough probability. Paquette と Scheinberg (2020) は、収束が確率関数と勾配評価がそれらの真の値を十分高い確率で近似するという要求に基づいて決定論的に近いアルゴリズムを提案する。 0.87
With our current work, we make the following contributions. 現在の作業では、次のような貢献をしています。 0.57
We use a model building strategy for adjusting the stepsize and the direction of a stochastic gradient vector. 確率勾配ベクトルのステップサイズと方向を調整するためにモデル構築戦略を用いる。 0.69
This approach also permits us to work on subsets of parameters. このアプローチにより、パラメータのサブセットに取り組むこともできます。 0.71
This feature makes our model steps not only adaptive, but also suitable to incorporate into the existing implementations of deep learning networks. この機能により、当社のモデルステップは適応性だけでなく、ディープラーニングネットワークの既存の実装に組み込むのにも適しています。 0.63
Our method changes the direction of the step as well as its size which separates our approach from the backtracking line search algorithms. 提案手法は,バックトラックライン探索アルゴリズムからアプローチを分離するステップの方向や,そのサイズを変化させる。 0.79
It also incorporates the most recent curvature information from the current point. また、現在の点からの最新曲率情報も取り入れている。 0.72
This is in contrast with the stochastic quasi-Newton methods which use the information from the previous steps. これは、以前のステップからの情報を使用する確率的準ニュートン法とは対照的である。 0.63
Capitalizing our discussion on the independence of the sample batches, we also give a convergence analysis for SMB. サンプルバッチの独立性に関する議論から,SMBの収束解析も行った。
訳抜け防止モード: サンプルバッチの独立性に関する議論の資金化。 また、SMB に対して収束解析を行う。
0.71
Finally, we illustrate the computational performance of our method with a set of numerical experiments and compare the results against those obtained with other well-known methods. 最後に,本手法の計算性能を数値実験で説明し,他のよく知られた手法と比較する。
訳抜け防止モード: 最後に,本手法の計算性能を数値実験により示す。 そして、その結果を他のよく知られた方法と比較します。
0.83
1. Stochastic Model Building We introduce a new stochastic unconstrained optimization algorithm 1.確率モデル構築 新しい確率的非制約最適化アルゴリズムを導入する。 0.71
in order to approximately solve problems of the form 形態の問題をほぼ解決するために 0.61
(1) where F : Rn × Rd → R is continuously differentiable and possibly nonconvex, ξ ∈ Rd denotes a random variable, and E[.] denotes the expectation taken with respect to ξ. 1) F : Rn × Rd → R が連続的に微分可能であり、おそらく非凸であるとき、n ∈ Rd は確率変数を表し、E[.] は y に関して取られた予想を表す。 0.82
We assume the existence of a stochastic first-order oracle which outputs a stochastic gradient g(x, ξ) of f for a given x. 与えられた x に対して f の確率勾配 g(x, y) を出力する確率的一階オラクルの存在を仮定する。 0.63
A common approach to tackle (1) is to solve the empirical risk problem 共通のアプローチ(1) 経験的リスク問題を解決すること 0.67
min x∈(cid:60)n min (複数形 mins) 0.51
f (x) = E[F (x, ξ)], f (x) = E[F (x, s)], 0.37
min x∈(cid:60)n min (複数形 mins) 0.51
f (x) = 1 N f (x) = 1N 0.41
N(cid:88) i=1 N(第88回) i=1 である。 0.47
fi(x), (2) where fi : Rn → R is the loss function corresponding to the ith data sample, and N denotes the data sample size which can be very large in modern applications. fi(x) (2) ここで fi : Rn → R は i 番目のデータサンプルに対応する損失関数であり、N は現代のアプリケーションで非常に大きなデータサンプルサイズを示す。 0.53
As an alternative approach to line search for SGD, we propose a stochastic model building strategy inspired by the work of Öztoprak and Birbil (2018). SGDの線探索の代替手法として, シュトプラクとビルビル(2018)の業績に触発された確率的モデル構築戦略を提案する。 0.70
Unlike core SGD methods, our approach aims at including a curvature information that adjusts not only the stepsize but also the search direction. コアSGD法とは異なり,本手法は,ステップサイズだけでなく探索方向も調節する曲率情報を含むことを目的としている。 0.75
Öztoprak and Birbil (2018) consider only the deterministic setting and they apply the model building strategy repetitively until a sufficient decent is achieved. öztoprak と birbil (2018) は決定論的設定のみを検討し、十分な正当性が達成されるまで繰り返しモデル構築戦略を適用する。 0.78
In our stochastic setting, however, we have observed experimentally that multiple model steps does not benefit much to the performance, and its cost to the run time can be extremely high in deep learning problems. しかし,確率的設定では,複数のモデルステップが性能にはあまり寄与せず,実行時間に対するコストがディープラーニング問題において極めて高いことが実験的に確認されている。 0.79
Therefore, if the sufficient decent is not achieved by the stochastic gradient step, then we construct only one model to adjust the size and the direction of the step. したがって, 確率的勾配ステップでは十分な精度が得られない場合, ステップのサイズと方向を調整するためのモデルが1つしかない。 0.75
Conventional stochastic quasi-Newton methods adjust the gradient direction by a scaling matrix that is constructed by the information from the previous steps. 従来の確率的準ニュートン法は、前のステップからの情報によって構築されたスケーリング行列により勾配方向を調整する。 0.65
Our model building approach, however, uses the most recent curvature information around the latest iteration. しかし、我々のモデル構築アプローチは、最新の反復に関する最新の曲率情報を使用します。 0.74
In the popular deep learning model implementations, model parameters come in groups and updates are applied to each parameter group separately. 一般的なディープラーニングモデル実装では、モデルパラメータがグループ化され、各パラメータグループにそれぞれ更新が適用される。 0.78
Therefore, we also propose to build a model for each parameter group separately making the step lengths adaptive. そこで本研究では,各パラメータ群に対してステップ長を別々に適応するモデルを構築することを提案する。
訳抜け防止モード: したがって、我々はまた 各パラメータ群ごとにステップ長を適応させるモデルを構築する。
0.78
The proposed iterative algorithm SMB works as follows: At step k, given the iterate xk, we calculate the stochastic function value fk = f (xk, ξk) and the mini-batch stochastic gradient gk = 1 i=1 g(xk, ξk,i) at mk xk, where mk is the batch size and ξk = (ξk,1, . . . , ξk,mk ) is the realization of the random vector ξ. ステップ k において、反復 xk が与えられたとき、mk xk における確率関数値 fk = f (xk, >k) とミニバッチ確率勾配 gk = 1 i=1 g(xk, >k,i) を計算する。
訳抜け防止モード: 提案した反復アルゴリズム SMB は次のように動作する。 ステップ k において、反復 xk が与えられたとき、確率関数の値 fk = f ( xk, sk ) を計算する。 そして、ミニ - バッチ確率勾配 gk = 1 i=1 g(xk, mk xkでは、mkはバッチサイズです。 と、k = ( sk, 1, . , sk。 mk ) は無作為なベクトル t の実現である。
0.79
Then, we k = −αkgk, where {αk}k is a sequence of learning rates. そして、k = −αkgk, ここで {αk}k は学習率の列である。 0.78
apply the SGD update to calculate the trial step st With this trial step, we also calculate the function and gradient values f t k, ξk) at SGD 更新を適用して試行ステップを計算する st この試行ステップでは、関数と勾配値 f t k, sk) も計算する。 0.74
k, ξk) and gt gt (複数形 gts または gts) 0.51
k = f (xt k = f (xt) 0.49
k = g(xt (cid:80)mk k = g(xt) (出典:80)mk 0.60
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
xt k = xk + st xt k = xk + st 0.42
k. Then, we check the stochastic Armijo condition k ≤ fk − c αk(cid:107)gk(cid:107 )2, f t kだ すると、確率的アルミージョ条件 k ≤ fk − c αk(cid:107)gk(cid:107 )2, f t をチェックする。 0.72
3 (3) where c > 0 is a hyper-parameter. 3 (3) c > 0 は超パラメータである。 0.53
If the condition is satisfied and we achieve sufficient decrease, then we set k as the next step. もし条件が満たされ、十分な減少を達成するならば、k を次のステップとして設定する。 0.71
If the Armijo condition is not satisfied, then we build a quadratic model using xk+1 = xt k,p for each parameter group p and find the step sk,p to reach its the linear models at the points xk,p and xt minimum point. アルミージョ条件が満たされない場合、各パラメータ群 p に対して xk+1 = xt k,p を用いて二次モデルを構築し、各点 xk,p および xt の最小点における線型モデルに到達するステップ sk,p を見つける。 0.82
Here, xk,p and xt k that corresponds to the parameter group p. ここで、xk,p および xt k はパラメータ群 p に対応する。 0.76
We calculate the next iterate xk+1 = xk + sk, where sk = (sk,p1 , . . . , sk,pn ) and n is the number of parameter groups, and proceed to the next step with xk+1 . 次の反復 xk+1 = xk + sk を計算する。ここで sk = (sk,p1 , . . , sk,pn ) と n はパラメータ群の数であり、xk+1 で次のステップに進む。 0.84
This model step, if needed, requires extra mini-batch function and gradient evaluations (forward and backward pass in deep neural networks). このモデルステップは、必要ならば、追加のミニバッチ機能と勾配評価(ディープニューラルネットワークの前方および後方パス)が必要になる。 0.67
For each parameter group p, the quadratic model is built by combining the linear models at xk,p and xt 各パラメータ群 p に対して、二次モデルは xk,p と xt の線型モデルを組み合わせて構築される。 0.85
k,p denote respectively the coordinates of xk and xt k,p はそれぞれ xk と xt の座標を表す 0.82
k,p, given by k,p(s) := fk + g(cid:62) l0 k、p、 与える k,p(s) := fk + g(cid:62) l0 0.53
k,ps and k,p(s − st lt k,ps そして k,p(s − st lt) である。 0.76
k,p) := f t k,p) :=f t 0.79
k + (gt k,p)(cid:62)(s − st k + (gt) k,p)(cid:62)(s − st) である。 0.57
k,p), respectively. k,p) である。 それぞれ。 0.68
Then, the quadratic model becomes mt 次に二次モデルが 山 0.56
k,p(s) := α0 k,p(s) := α0 0.47
k,p(s)l0 k,p(s) + αt k,p(s)l0 k,p(s) + αt 0.48
k,p(s)lt k,p(s − st k,p(s)lt k,p(s − st) である。 0.54
k,p), where k,p) である。 どこに 0.70
The constraint α0 k,p(s) = 制約 α0 k,p(s) = 0.43
(s − st (−st (s − st (−st) 0.45
k,p)(cid:62)(−st k,p) k,p)(cid:62)(−st k,p) (cid:107)s(cid:107)2 + (cid:107)s − st k,p)(cid:62)(−st k,p) k,p)(cid:62)(−st k,p) (cid:107)s(cid:107)2 + (cid:107)s − st 0.46
and αt k,p(s) = およびαt k,p(s) = 0.59
s(cid:62)st k,p)(cid:62)st (st s(cid:62)st k,p)(cid:62)st (st) 0.44
k,p k,p . k,p(cid:107)2 ≤ (cid:107)st k,p k,p . k,p(cid:107)2 ≤ (cid:107)st 0.43
k,p(cid:107)2, k,p(cid:107)2, 0.48
is also imposed so that the minimum is attained in the region bounded by xk,p and xt like a trust region. また、最小値が信頼領域のようにxk,p,xtで区切られた領域で達成されるように課される。 0.71
Figure 1 shows the steps of this construction. 図1はこの建設の手順を示しています。 0.64
k,p. This constraint acts k、p。 この制約は 0.53
In this work, we solve a relaxation of this constrained model as explained in (Öztoprak and Birbil, 2018, 本研究は,この制約付きモデル(öztoprak and birbil, 2018)の緩和を解いたものである。 0.64
Section 2.2). The minimum value of the relaxed model is attained at the point xk,p + sk,p with 第2部。 緩和されたモデルの最小値は点 xk,p + sk,p で達成される。 0.49
sk,p = cg,p(δ)gk,p + cy,p(δ)yk,p + cs,p(δ)st sk,p = cg,p(δ)gk,p + cy,p(δ)yk,p + cs,p(δ)st 0.42
k,p, (4) where yk,p := gt k、p、 (4) yk,p := gt の場合 0.60
k,p − gk,p. k,p − gk,p。 0.40
Here, the coefficients are given as [−(y(cid:62) ここで係数は[−(y(cid:62)]として与えられる 0.86
cg,p(δ) = −(cid:107)st cg,p(δ) = −(cid:107)st 0.49
k,p(cid:107)2 2δθ k,p(cid:107)2 2δθ 0.41
cy,p(δ) = −(cid:107)st k,p(cid:107)2 2δθ cy,p(δ) = −(cid:107)st k,p(cid:107)2 2δθ 0.46
[−(y(cid:62) [−(y(cid:62) 0.42
k,pst , k,p(cid:107)2 2δ cs,p(δ) = −(cid:107)st (cid:17)2 − (cid:107)st k,pst , k,p(cid:107)2 2δ cs,p(δ) = −(cid:107)st (cid:17)2 − (cid:107)st 0.43
k,pst k,p + 2δ)(st k,pst k,p + 2δ(st) 0.65
k,p)(cid:62)gk,p + (cid:107)st k,p)(cid:62)gk,p + (cid:107)st 0.47
k,p(cid:107)2y(cid:6 2) k,p(cid:107)2y(cid:6 2) 0.40
k,pgk,p], k,pgk,p + (cid:107)yk,p(cid:10 7)2(st k,p + 2δ)y(cid:62) (cid:18) k,pgk,p] k,pgk,p + (cid:107)yk,p(cid:10 7)2(st k,p + 2δ)y(cid:62) (cid:18) 0.40
(cid:18) k,p)(cid:62)gk,p], (cid:19) (cid:18) k,p)(cid:62)gk,p], (cid:19) 0.44
(cid:19) with (cid:19) と 0.50
(cid:16) (cid:62) k,pst y (出典:16) (出典:62)k,pst y 0.73
θ = (5) where 0 < η < 1 is a constant which controls the size of sk,p by imposing the condition (cid:107)sk,p(cid:10 7) ≤ η(cid:107)st k,p(cid:107). θ = (5) ここで 0 < η < 1 は、条件 (cid:107)sk,p(cid:10 7) ≤ η(cid:107)st k,p(cid:107) によって sk,p のサイズを制御する定数である。 0.63
Then, the adaptive model step becomes sk = (sk,p1, . . . , sk,pn ). すると、適応モデルステップはsk = (sk,p1, . . . , sk,pn )となる。 0.74
We note that our construction in terms of different parameter groups lends itself to constructing a different model for each parameter subspace. 異なるパラメータ群の観点からの我々の構成は、それぞれのパラメータ部分空間に対して異なるモデルを構築することに自負する。 0.80
k,p + 2δ k,p k,p + 2δ k,p 0.46
, k,p(cid:107)2(cid:10 7)yk,p(cid:107)2 and δ = , k,p(cid:107)2(cid:10 7)yk,p(cid:107)2およびδ = 0.44
(cid:107)st (cid:107)st 0.42
k,p(cid:107) k,p(cid:107) 0.46
(cid:107)yk,p(cid:10 7) + (cid:107)yk,p(cid:10 7) + 0.43
(cid:107)gk,p(cid:10 7) (cid:107)gk,p(cid:10 7) 0.42
− y (cid:62) k,pst -y (cid:62)k,pst 0.36
1 η 1 2 1 η 1 2 0.42
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
4 Figure 1: An iteration of SMB on a simple quadratic function. 4 図1: 単純な二次函数上のSMBの反復。 0.57
For simplicity we assume that there is only one parameter group, and hence, we drop the subscript p . 単純さのため、1つのパラメータグループしか存在しないと仮定し、従って、subscript p をドロップします。 0.69
The algorithm first computes the trial point xt k by taking the stochastic gradient step st k. アルゴリズムはまず、確率的勾配ステップst kを用いて試行点xt kを算出する。 0.72
If this point is not acceptable, then it builds a model using the information at xk and xt k, and computes the next iterate xk+1 = xk + sk. この点が受け入れられない場合、xk と xt k の情報を用いたモデルを構築し、次の反復式 xk+1 = xk + sk を計算する。 0.79
Note that sk not only have a smaller length compared to the trial step st skはトライアルステップstよりも長さが小さいだけでなく 0.65
k, but it also lies along a direction decreasing the function value. k であるが、関数の値が減少する方向に沿っても存在する。 0.76
We summarize the steps of SMB in Algorithm 1. アルゴリズム1では、SMBのステップを要約する。 0.70
Line 5 shows the trial point, which is obtained with the standard stochastic gradient step. 5行目は、標準確率勾配ステップで得られる試行点を示す。 0.63
If this step satisfies the stochastic Armijo condition, then we proceed with the next iteration (line 8). このステップが確率的Armijo条件を満たすならば、次のイテレーション(ライン8)を進めます。 0.66
Otherwise, we continue with bulding the models for each parameter group (lines 10- 12), and move to the next iteration with the model building step in line 13. そうでなければ、各パラメータグループ(ライン10~12)のモデルを膨らませて、モデル構築ステップを13行で次のイテレーションに移動させます。 0.73
k=1, mini-batch sizes {mk}T k=1,ミニバッチサイズ {mk}t 0.79
k=1,c > 0, and αmax satisfying (8) k=1,c>0,αmaxで満たされる(8) 0.78
4 5 6 7 8 9 10 11 4 5 6 7 8 9 10 11 0.43
12 13 Algorithm 1: SMB: Stochastic Model Building 1 Input: x1 ∈ Rn, stepsizes {αk}T 2 for k = 1, . . . , T do 3 12 13 アルゴリズム1: smb: 確率モデル構築 1 入力: x1 ∈ rn, stepizes {αk}t 2 for k = 1, . , t do 3
訳抜け防止モード: 12 13 アルゴリズム1 : SMB : 確率モデル構築 1入力 : x1 ∈ Rn, k = 1 に対して {αk}T 2 を段階化する。 T do 3
0.69
i=1 g(xk, ξk,i); i=1 g(xk, sk, i) である。 0.71
(cid:80)mk (cid:80)mk k ≤ fk − c αk(cid:107)gk(cid:107 )2 then xk+1 = xt (cid:80)mk (cid:80)mk k ≤ fk − c αk(cid:107)gk(cid:107 )2 then xk+1 = xt 0.42
fk = f (xk, ξk), gk = 1 mk k = −αkgk; st k; xt k = xk + st f t k = f (xt if f t gk = 1 mk k = −αkgk; st k; xt k = xk + st f t k = f (xt if f t) である。 0.72
k, ξk), gt gt (複数形 gts) 0.37
k = 1 mk k ; k = 1 mk k; 0.41
i=1 g(xt k, ξk,i); i=1 g(xt) k, sk, i)。 0.43
else for p = 1, . . . , r do その他 p = 1 . . . に対して、r は 0.71
k,p − gk,p; k,p − gk,p; 0.42
yk,p = gt sk,p = cg,p(δ)gk,p + cy,p(δ)yk,p + cs,p(δ)st xk+1 = xk + sk with sk = (sk,p1, . . . , sk,pr ); yk,p = gt sk,p = cg,p(δ)gk,p + cy,p(δ)yk,p + cs,p(δ)st xk+1 = xk + sk with sk = (sk,p1, . , sk,pr ); 0.42
k,p; 2. Convergence Analysis The steps of SMB can be considered as a special quasi-Newton update: k,p; 2.収束解析 smbのステップは特別な準ニュートン更新と見なすことができる。 0.54
xk+1 = xk − αkHkgk, xk+1 = xk − αkhkgk。 0.79
(6) where Hk is a symmetric positive definite matrix as an approximation to the inverse Hessian matrix. (6) ここで Hk は対称正定値行列であり、逆ヘッセン行列の近似である。 0.56
In Appendix 4, we explain this connection and give an explicit formula for the matrix Hk. Appendix 4 では、この接続を説明し、行列 Hk に対して明示的な公式を与える。 0.73
We also prove that there exists κ, κ > 0 such that for all k the matrix Hk satisfies κI (cid:22) Hk (cid:22) κI, また、すべての k に対して行列 Hk が κI (cid:22) Hk (cid:22) κI を満たすような κ, κ > 0 が存在することも証明する。 0.74
(7) (7) 0.43
英語(論文から抽出)日本語訳スコア
(cid:80)mk (cid:80)mk k ≤ fk − c αk(cid:107)gk(cid:107 )2 then xk+1 = xt (cid:80)mk (cid:80)mk k ≤ fk − c αk(cid:107)gk(cid:107 )2 then xk+1 = xt 0.42
fk = f (xk, ξk), gk = 1 mk k = −αkgk; st k; xt k = xk + st f t k = f (xt if f t gk = 1 mk k = −αkgk; st k; xt k = xk + st f t k = f (xt if f t) である。 0.72
k, ξk), gt gt (複数形 gts) 0.37
k = 1 mk k ; k = 1 mk k; 0.41
else i=1 g(xt その他 i=1 g(xt) 0.47
k, ξk,i); k, sk, i)。 0.51
for p = 1, . . . , n do p = 1, . . , n に対して 0.80
(cid:80)mk Choose a new independent random batch ξ(cid:48) k; i=1 g(xk, ξ(cid:48) g(cid:48) k = 1 (cid:80)mk mk k)(cid:48) = −αkg(cid:48) k, (xt (st k)(cid:48), ξ(cid:48) k)(cid:48) = 1 i=1 g((xt (gt sk,p = −αkH(cid:48) k,pgk, where H(cid:48) (cid:80)mk は、新しい独立したランダムなバッチ s(cid:48) k を選択する: i=1 g(xk, s(cid:48) g(cid:48) k = 1 (cid:80)mk k)(cid:48) = −αkg(cid:48) k, (xt (st k)(cid:48), s(cid:48) k)(cid:48) = 1 i=1 g(xt (gt sk,p = −αkh(cid:48) k,pgk, ここで h(cid:48) は h(cid:48) である。 0.77
k)(cid:48); k)(cid:48) = xk + (st k,i), y(cid:48) k,p; k,p = (gt k,p is calculated using g(cid:48) k (cid:48); k (cid:48) = xk + (st k,i), y(cid:48) k,p; k,p = (gt k,p) は g(cid:48) を用いて計算される。 0.94
k,p)(cid:48) − g(cid:48) k,p(cid:48) − g(cid:48) 0.47
k,i); mk k,i) である。 mk 0.48
xk+1 = xk + sk with sk = (sk,1, . . . , sk,n); xk+1 = xk + sk with sk = (sk,1, . . , sk,n); 0.47
4 5 6 7 8 9 10 11 4 5 6 7 8 9 10 11 0.43
12 13 14 15 12 13 14 15 0.53
16 Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) 16 Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
5 where for two matrices A and B, A (cid:22) B means B − A is positive semidefinite. 5 2つの行列 A と B に対して、A (cid:22) B は B − A が正半定値であることを意味する。 0.52
It is important to note that Hk is built with the information collected around xk, particularly, gk. Hk は xk を中心に収集された情報,特に gk で構築されている点に注意が必要だ。 0.70
Therefore, unlike stochastic quasi-Newton methods, Hk is correlated with gk, and hence, Eξk [Hkgk] is very difficult to analyze. したがって、確率的準ニュートン法とは異なり、Hk は gk と相関しており、したがって、E'k [Hkgk] は解析が非常に困難である。 0.59
Unfortunately, this difficulty prevents us from using the general framework given by Wang et al (2017). 残念ながら、この難しさは、Wang et al (2017)が提供する一般的なフレームワークの使用を妨げる。 0.59
To overcome this difficulty and carry on with the convergence analysis, we modify Algorithm 1 such that Hk is calculated with a new independent mini batch, and therefore, it is independent of gk. この難しさを克服し、収束解析を継続するため、Hkが新しい独立ミニバッチで計算されるようにアルゴリズム1を変更するため、gkとは独立である。 0.72
By doing so, we still build a model using the information around xk. そうすることで、xkに関する情報を使ってモデルを構築します。 0.76
Assuming that gk is an unbiased estimator of ∇f, we conclude that Eξk [Hkgk] = Hk∇f. gk が f の偏りのない推定元であると仮定すると、E は Hk である。 0.64
In the rest of this section, we provide a convergence analysis for this modified algorithm which we will call as SMBi (i for independent batch). この節の残りでは、smbi(i for independent batch)と呼ぶこの修正アルゴリズムの収束解析を提供する。 0.57
The steps of SMBi are given in Algorithm 2. SMBi のステップは Algorithm 2 で与えられる。 0.76
As Step 11 shows, we obtain the model building step with a new random batch. ステップ11が示すように、新しいランダムバッチでモデル構築ステップを得る。 0.64
Algorithm 2: SMBi: Hk with an independent batch 1 Input: x1 ∈ Rn, stepsizes {αk}T 2 for k = 1, . . . , T do 3 アルゴリズム2: SMBi: Hk with a independent batch 1 入力: x1 ∈ Rn, stepsizes {αk}T 2 for k = 1, . , T do 3.
訳抜け防止モード: アルゴリズム 2 : SMBi : Hk 独立バッチ 1 入力 : x1 ∈ Rn, k = 1 に対して {αk}T 2 を段階化する。 T do 3
0.78
k=1, mini-batch sizes {mk}T k=1,ミニバッチサイズ {mk}t 0.79
i=1 g(xk, ξk,i); i=1 g(xk, sk, i) である。 0.71
k=1,c > 0, and αmax satisfying (8) k=1,c>0,αmaxで満たされる(8) 0.78
k and y(cid:48) k と y(cid:48) 0.44
k as defined in Appendix 4; Appendix 4で定義されているk 0.68
Assumptions: Before providing the analysis, let us assume that f : Rn → R is continuously differentiable, lower bounded by f low, and there exists L > 0 such that for any x, y ∈ Rn, (cid:107)∇f 仮定: 解析を与える前に、f : Rn → R が連続的に微分可能であり、f によって下界が低く、任意の x, y ∈ Rn に対して (cid:107) =f となるような L > 0 が存在すると仮定する。 0.79
(x) − ∇f (x) − \f である。 0.64
(y)(cid:107) ≤ L(cid:107)x − y(cid:107). (y)(cid:107) ≤ L(cid:107)x − y(cid:107)。 0.43
We also assume that ξk, k ≥ 1, are independent samples and for any iteration k, ξk is independent of {xj}k j=1, Eξk [g(xk, ξk)] = ∇f (xk) and Eξk [(cid:107)g(xk, ξk) − ∇f (xk)(cid:107)2] ≤ M 2, for some M > 0. k, k ≥ 1 は独立なサンプルであり、任意の反復 k に対して、任意の m > 0 に対して、 sk は {xj}k j=1, e\k [g(xk, sk)] = sf (xk) および e\k [(cid:107)g(xk, sk) − sf (xk)(cid:107)2] ≤ m 2 から独立であると仮定する。 0.79
In order to be in line with practical implementations and with our experiments, we first provide an analysis 実践的な実装と実験に適合するために、まず分析を行う。 0.58
covering the constant stepsize case for (possibly) non-convex objective functions. 非凸目的関数の(おそらく)定数ステップサイズケースをカバーすること。 0.70
Below, we denote by ξ[T ] = (ξ1, . . . , ξT ) the random samplings in the first T iterations. 以下では、最初の t 回の反復におけるランダムなサンプリングを s[t ] = (1, . . . . . . . .t ) と表記する。
訳抜け防止モード: 以下に示すのは、 s[T ] = ( s1, ..., は、最初の T 反復におけるランダムサンプリングである。
0.68
Let αmax be the αmax を the とする 0.75
maximum stepsize that is allowed in the implementation of SMBi with SMBi の実装で許容される最大ステップサイズ 0.66
αmax ≥ −1 +(cid:112)1 + 16η2 αmax ≥ −1 +(cid:112)1 + 16η2 0.38
4Lη . (8) This hyper-parameter of maximum stepsize is needed in the theoretical results. 4Lη . (8) この最大段差の超パラメータは理論結果に必要である。 0.47
The same parameter can also be used to apply automatic stepsize adjustment (see our numerical experiments with stepsize auto-scheduling in Section 3.2). 同じパラメータを自動ステップ化調整に適用することもできます(第3部ではステップ化自動スケジュールに関する数値実験を参照)。 0.75
Observe that since η−1 > 1, assuming L ≥ 1 implies that it suffices to choose αmax ≥ 1 to satisfy (8). η−1 > 1 であるから、L ≥ 1 を仮定すると、αmax ≥ 1 を選択して (8) 満足する。 0.86
The proof of the following convergence result is given in Appendix 4 Theorem 2.1 Suppose that our assumptions above hold and {xk} is generated by SMBi as given in Algorithm 2. 次の収束結果の証明は appendix 4 theorem 2.1 で与えられる。 上記の仮定と {xk} がアルゴリズム2で与えられるsmbiによって生成されると仮定する。 0.78
Suppose also that {αk} in Algorithm 2 satisfies that 0 < αk < 2/(Lη−1 + 2L2αmax) ≤ αmax for all k. アルゴリズム 2 の {αk} はすべての k に対して 0 < αk < 2/(Lη−1 + 2L2αmax) ≤ αmax を満たすとする。 0.71
For のために 0.51
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
6 given T , let R be a random variable with the probability mass function 6 与えられた t , r を確率質量関数を持つ確率変数とする 0.61
PR(k) := P{R = k} = PR(k) := P{R = k} = 0.42
for k = 1, . . . , T . k = 1, . . , t に対して。 0.78
Then, we have E[(cid:107)∇f (xR)(cid:107)2] ≤ そして私たちは E[(cid:107) =f (xR)(cid:107)2] ≤ 0.57
(cid:80)T αk/(η−1 + 2Lαmax) − α2 kL/2 k=1(αk/(η−1 + 2Lαmax) − α2 Df + (σ2L/2)(cid:80)T (cid:80)T k/mk) k=1(αk/(η−1 + 2Lαmax) − α2 (cid:80)T αk/(η−1 + 2Lαmax) − α2 kL/2 k=1(αk/(η−1 + 2Lαmax) − α2 Df + (σ2L/2)(cid:80)T (cid:80)T k/mk)k=1(αk/(η−1 + 2Lαmax) − α2 0.32
k=1(α2 kL/2) k=1(α2) kL/2) 0.32
, , kL/2) where Df := f (x1) − f low and the expectation is taken with respect to R and ξ[T ]. , , kL/2) ここで df := f (x1) − f low であり、r と s[t ] に関して期待値が取られる。 0.48
Moreover, if we choose αk = 1/(Lη−1 + 2L2αmax) and mk = m for all k = 1, . . . , T , then this reduces to さらに、全ての k = 1 に対して αk = 1/(Lη−1 + 2L2αmax) と mk = m を選択すると、これは減少する。 0.85
E[(cid:107)∇f (xR)(cid:107)2] ≤ 2L(η−1 + 2Lαmax)2Df E[(cid:107) =f (xR)(cid:107)2] ≤ 2L(η−1 + 2Lαmax)2Df 0.39
T + M 2 m . Using this theorem, it is possible to deduce that stochastic first-order oracle complexity of SMB with T + m2m . この定理を用いて、SMB の確率的一階オラクル複雑性を導出することができる。 0.53
random output and constant stepsize is O(−2) (Wang et al , 2017, Corollary 2.12). ランダムな出力と定数のステップは o(-2) (wang et al , 2017 corollary 2.12) である。 0.72
In (Wang et al , 2017, Theorem 2.5), it is shown that under our assumptions above and the extra assumption of 0 < αk ≤ L(η−1+2Lαmax) ≤ αmax, if the point sequence {xk} is generated by SMBi method (when Hk is calculated by an independent batch in each step) with batch size mk = m for all k, then there exists a positive constant Mf such that E[f (xk)] ≤ Mf . Wang et al , 2017 Theorem 2.5) において、上記の仮定と 0 < αk ≤ L(η−1+2Lαmax) ≤ αmax の余剰仮定の下で、点列 {xk} が SMBi 法(各ステップにおいて独立なバッチによって Hk が計算されるとき)によって生成されるとき、すべての k に対してバッチサイズ mk = m のとき、E[f(xk)] ≤ Mf となる正の定数 Mf が存在する。 0.84
Using this observation, the proof of Theorem 2.1, and Theorem 2.8 in (Wang et al , 2017), we can also give the following complexity result when the stepsize sequence is diminishing for non-convex objective functions. この観測、Theorem 2.1 と Theorem 2.8 in (Wang et al , 2017) の証明を用いて、非凸目的関数のステップサイズ列が減少するときに、次の複雑さの結果を与えることもできる。 0.73
1 Theorem 2.2 Let the batch size be m and assume that αk = Then {xk} generated by SMBi satisfies that 1 定理 2.2 バッチサイズを m とし、SMBi によって生成される αk = then {xk} がそれを満たすと仮定する。 0.53
L(η−1+2Lαmax) k−φ with φ ∈ (0.5, 1) for all k. l(η−1+2lαmax) k−φ はすべての k に対して φ ∈ (0.5, 1) を持つ。 0.59
1 E[(cid:107)∇f (xk)(cid:107)2 ≤ 2L(η−1 + 2Lαmax)(Mf − f low)T φ−1 + 1 E[(cid:107) =f (xk)(cid:107)2 ≤ 2L(η−1 + 2Lαmax)(Mf − f low)T φ−1 + 0.42
M 2 (1 − φ)m M2 (1 − φ)m 0.40
(T −φ − T −1) (T −φ − T −1) 0.47
(cid:80)T 1 T (出典:80)T 1T 0.55
k=1 for some Mf > 0, where T denotes the iteration number. k=1 である。 ある mf > 0 に対して、t は反復数を表す。 0.49
Moreover, for a given  ∈ (0, 1), to guarantee that さらに、与えられた s ∈ (0, 1) に対して、それを保証する。 0.78
E[(cid:107)∇f (xk)(cid:107)2 < , the number of iterations T needed is at most O E[(cid:107) =f (xk)(cid:107)2 < s, T の反復回数は最大 O である。 0.83
− 1 1−φ  (cid:16) − 1 1−φ  (出典:16) 0.50
(cid:17) . (cid:17) . 0.41
T(cid:88) k=1 T(第88回) k=1 である。 0.45
1 T We are now ready to assess the performance of SMB and SMBi with some numerical experiments. 1T 我々はSMBとSMBiの性能を数値実験で評価する準備が整った。 0.53
3. Numerical Experiments In this section, we compare SMB and SMBi against SGD, Adam Kingma and Ba (2015), and SLS (SGD+Armijo) Vaswani et al (2019). 3. 数値実験 本稿では,SMBとSMBiをSGD,Adam Kingma,Ba(2015),SLS( SGD+Armijo) Vaswani et al(2019)と比較する。 0.76
We have chosen SLS since it is a recent method that uses stochastic line search with backtracking. 我々は最近,バックトラックを用いた確率線探索法としてslsを選択した。 0.70
We have conducted experiments on multi-class classification problems using neural network models∗. ニューラルネットワークモデル*を用いた多クラス分類問題の実験を行った。 0.76
Our Python package SMB along with the scripts to conduct our experiments are available online: https://github.com/s ibirbil/SMB 私たちのPythonパッケージSMBと実験を行うスクリプトはオンラインで利用可能です。 0.68
3.1 Constant Stepsize We start our experiments with constant stepsizes for all methods. 3.1 定数ステップ化 すべてのメソッドに対して定数ステップ化で実験を開始する。 0.66
We should point out that SLS method adjusts the stepsize after each backtracking process and also uses a stepsize reset algorithm between epochs. SLS法は各バックトラック処理後にステップサイズを調整し、エポック間のステップサイズリセットアルゴリズムも使用する必要がある。 0.76
We refer to this routine as stepsize auto-scheduling. このルーチンをステップサイズ自動スケジューリングと呼ぶ。 0.64
Therefore, we find it unfair to compare SLS with other methods with constant stepsize. したがって、SLSと他の手法を定常的なステップサイズで比較することは不公平である。 0.61
Please, see Section 3.2 for a discussion about stepsize auto-scheduling using SMB. SMBを使用したステップサイズ自動スケジューリングに関する議論については、セクション3.2を参照してください。 0.53
MNIST dataset. MNISTデータセット。 0.80
On the MNIST dataset, we have used the one hidden-layer multi-layer perceptron (MLP) of width 1,000. MNISTデータセットでは,1000幅の1層多層パーセプトロン(MLP)を用いた。 0.70
We compare all methods after cross-validating their best performances from the set of learning rates, {0.001, 0.01, 0.1, 0.25, 0.5, 0.75, 1.0}. 学習率 {0.001, 0.01, 0.1, 0.25, 0.5, 0.75, 1.0} から最良性能を比較検討した。 0.70
For SMB and SLS, we have used the default hyper-parameter value c = 0.1 of SLS that appears in the Armijo condition (also recommended by the authors of SLS) SMB と SLS では、Armijo 条件に現れる SLS のデフォルトのハイパーパラメータ値 c = 0.1 を用いています(SLS の著者も推奨しています)。 0.84
∗The implementations of the models are taken from https://github.com/I ssamLaradji/sls モデルの実装はhttps://github.com/I ssamLaradji/slsから引用する。 0.54
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
7 (a) Epochs (b) Run Time 7 (a)エポック (b)実行時間 0.59
Figure 2: Classification on MNIST with an MLP model. 図2: MLPモデルによるMNISTの分類。 0.78
In Figure 2, we see the best performances of all five methods on the MNIST dataset with respect to epochs and run time. 図2では、エポックと実行時間に関して、MNISTデータセット上の5つのメソッドの最高のパフォーマンスを確認します。 0.69
The reported experiments consist of five independent runs where results are averaged. 報告された実験は、5つの独立した実行結果から成っている。 0.61
Even though SMB and SMBi may calculate an extra function value (forward pass) and a gradient (backward pass), we see in this problem that SMB and SMBi achieve the best performance with respect to the run time as well as the number of epochs. SMBとSMBiは、余分な関数値(前方通過)と勾配(後方通過)を計算できるが、この問題において、SMBとSMBiは実行時間とエポック数に関して最高のパフォーマンスを達成する。 0.62
More importantly, the generalization performances of SMB and SMBi are also better than the remaining three methods. さらに、SMBとSMBiの一般化性能は、残りの3つの手法よりも優れている。 0.71
It should be pointed out that, in practice, choosing a new independent batch means the SMBi method can construct a model step in two iteration using two batches. 実際には、新しい独立したバッチを選択することは、SMBiメソッドが2つのバッチを使用して2つのイテレーションでモデルステップを構築することができることを意味する。 0.63
This way the computation cost for each iteration is reduced but the model steps can only be taken in half of the iterations in the epoch. このようにして、各イテレーションの計算コストは削減されるが、モデルのステップは、エポックのイテレーションの半分でしか利用できない。 0.66
As seen in Figure 2, this does not seem to effect the performance significantly. 図2に示すように、これはパフォーマンスに大きな影響を及ぼさないようです。 0.85
CIFAR10 and CIFAR100 datasets. CIFAR10とCIFAR100データセット。 0.67
For the CIFAR10 and CIFAR100 datasets, we have used the standard image-classification architectures ResNet-34 (He et al , 2016) and DenseNet-121 (Huang et al , 2017) . CIFAR10とCIFAR100データセットでは、標準画像分類アーキテクチャであるResNet-34(He et al , 2016)とDenseNet-121(Huang et al , 2017)を使用しました。 0.68
Due to the high computational costs of these architectures, we report the results of a single run of each method. これらのアーキテクチャの計算コストが高いため、各手法の単一実行の結果を報告する。 0.66
For, Adam we have used the default learning rate 0.001, and for SGD, we have set the tuned learning rate to 0.1 as reported in Vaswani et al (2019). 例えば、Adam氏はデフォルトの学習率0.001を使用し、SGDでは、Vaswani et al (2019)で報告されているように、チューニング学習率を0.1に設定しました。 0.62
For SMB and SLS, we have again used the default learning rate of 1.0 and Armijo constant c = 0.1 of SLS. SMB と SLS では、デフォルトの学習率 1.0 と Armijo 定数 c = 0.1 を再び使用しています。 0.84
(a) Training Loss (b) Test Accuracy (a)訓練損失 (b)検査精度 0.37
(c) Training Loss (d) Test Accuracy (c)訓練損失 (d)検査精度 0.37
Figure 3: Classification on CIFAR10 (a, b) and CIFAR100 (c, d) with ResNet-34 model. 図3: CIFAR10 (a, b) と CIFAR100 (c, d) を ResNet-34 モデルで分類する。 0.86
In Figure 3, we see that on CIFAR10-Resnet34 and CIFAR100-Resnet34, SMB performs better than Adam 図3では、CIFAR10-Resnet34とCIFAR100-Resnet34では、SMBはAdamより優れています。 0.63
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
8 and SGD algorithms. 8 そしてSGDアルゴリズム。 0.54
However, its performance is only comparable to SLS. しかし、その性能はSLSにしか匹敵しない。 0.70
Even though SMB reaches a lower loss function value in CIFAR100-Resnet34, this advantage does not show in test accuracy. SMBはCIFAR100-Resnet34で低損失関数値に達するが、この利点はテスト精度に現れない。 0.77
As mentioned in the beginning of this section, SLS method adjusts the stepsize after each backtracking process and, in order to prevent diminishing stepsizes, it uses a stepsize reset algorithm between epochs. この節の冒頭で述べたように、SLS法は各バックトラック処理後のステップサイズを調整し、ステップサイズが減少するのを防ぐため、エポック間のステップサイズリセットアルゴリズムを使用する。 0.73
SMB does not benefit from this kind of stepsize auto-scheduling. SMBはこのような段階的な自動スケジューリングの恩恵を受けない。 0.57
We will define an auto-scheduling for SMB stepsizes in Section 3.3 so that we obtain a fairer comparison between SMB and SLS. 我々は,SMB と SLS のより公平な比較を得るために,セクション3.3 で段階的な SMB の自動スケジューリングを定義する。 0.67
(a) Training Loss (b) Test Accuracy (a)訓練損失 (b)検査精度 0.37
Figure 4: Classification on CIFAR100 with DenseNet-121 model. 図4: DenseNet-121 モデルによる CIFAR100 の分類。 0.80
In Figure 4, we see a comparison of performances of SMB and SLS on CIFAR100-DenseNet121 . 図4では、CIFAR100-DenseNet121 上でのSMBとSLSのパフォーマンスを比較します。 0.69
SMB with a constant stepsize outperforms SLS on train loss and reaches to high test accuracy before SLS. 一定段差のSMBは、列車損失時にSLSより優れ、SLSの前に高いテスト精度に達する。 0.63
Vaswani et al (2019) show that SLS with these settings outperforms Adam and SGD on this problem both in terms of traning loss and test accuracy. Vaswani et al (2019) は、これらの設定によるSLSは、転写損失とテスト精度の両方において、この問題においてAdamとSGDを上回っていることを示した。 0.54
3.2 Stepsize Auto-Scheduling As expected SMB can take many model steps, when learning rate is too large. 3.2 ステップサイズ 自動スケジューリング 予想通り、学習速度が大きすぎると、SMBは多くのモデルステップを踏むことができる。 0.67
Then, extra mini-batch function and gradient evaluations can slow down the algorithm (c.f., Figure 3). すると、追加のミニバッチ関数と勾配評価がアルゴリズムを遅くすることができる(図3)。 0.78
We believe that the number of model steps taken in an epoch (when the Armijo condition is not satisfied) can be a good measure to adjust the learning rate in the next epoch. 我々は,その時期のモデルステップの数(Armijo条件が満たされていない場合)が,次の時代における学習率の調整に有効であると考えている。 0.83
This can lead to an automatic learning rate scheduling algorithm. これは自動学習率スケジューリングアルゴリズムにつながる可能性がある。 0.82
We did preliminary experiments with a simple stepsize auto-scheduling routine, The results are given in Figure 5. 簡単なステップサイズ自動スケジューリングルーチンで予備実験を行い、その結果を図5に示しました。 0.75
At the end of each epoch, we multiply the stepsize by 0.9 when the model steps taken in an epoch is more than 5% of the total steps taken. 各エポックの最後に、各エポックにおけるモデルステップが全ステップの5%以上であるときに、ステップを0.9倍に乗算する。 0.69
Otherwise, we divide the stepsize by 0.9, unless the division ends up with a stepsize greater than the maximum stepsize allowed, αmax. さもなくば、ステップを0.9で割るが、この除算は最大ステップ化が許される αmax よりも大きいステップで終わる。 0.71
The value 0.9 is the backtracking ratio of SLS and we consider 5% as a hyper-parameter. 0.9はslsのバックトラッキング率であり、5%はハイパーパラメータである。 0.69
Figure 5 shows, on the training loss, that both SMB and SMBi perform better than the other methods. 図5は、トレーニング損失において、SMBとSMBiの両方が他の方法よりも優れたパフォーマンスを示している。 0.69
For the test accuracy, SMB performs better than all other methods, and SMBi performs comparable to SLS. テスト精度では、SMBは他のどの方法よりも優れており、SMBiはSLSに匹敵する。 0.68
(a) Training Loss (b) Test Accuracy (a)訓練損失 (b)検査精度 0.37
Figure 5: Performances of SMB and SMBi with auto-scheduled stepsizes on CIFAR10. 図5: cifar10のsmbとsmbiの自動スケジュールステップのパフォーマンス。 0.65
3.3 Robustness with respect to Stepsize Our last set of experiments are devoted to demonstrating the robustness of SMB. 3.3 ステップサイズに関するロバスト性 SMB の堅牢性を示すための最後の実験セット。 0.73
The preliminary results in Figure 6 show that SMB is more robust to the choice of the learning rate than Adam and SGD, especially in deep neural networks. 図6の予備的な結果は、特にディープニューラルネットワークにおいて、SMBはAdamやSGDよりも学習率の選択に堅牢であることを示している。 0.70
This aspect of SMB needs more attention theoretically and experimentally. SMBのこの側面は理論的、実験的にもっと注意が必要である。 0.54
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
9 Figure 6: Robustness of SMB under different choices of the learning rate. 9 図6: 学習率の異なる選択によるSMBのロバスト性。 0.61
4. Conclusion SMB is a fast alternative to stochastic gradient method. 4. 結論 smb は確率的勾配法に代わる高速な方法である。 0.65
The algorithm provides a model building approach that replaces the one-step backtracking in stochastic line search methods. このアルゴリズムは、確率線探索法におけるワンステップバックトラッキングを置き換えるモデル構築アプローチを提供する。 0.76
We have analyzed the convergence properties of a modification of SMB by rewriting its model building step as a quasi-Newton update and constructing the scaling matrix with a new independent batch. 我々は,モデル構築ステップを準ニュートン更新として書き直し,新たな独立バッチでスケーリングマトリックスを構築することで,smb修正の収束特性を解析した。 0.82
Our numerical results have shown that SMB converges fast and its performance is much more insensitive to the selected stepsize than Adam and SGD algorithms. 数値計算の結果,SMBはAdamやSGDよりも高速に収束し,その性能は選択したステップサイズに対してはるかに敏感であることがわかった。
訳抜け防止モード: 私たちの数値結果は SMBは高速に収束し、その性能はAdamやSGDアルゴリズムよりも選択されたステップサイズにはるかに敏感である。
0.72
In its current state, SMB lacks any internal learning rate adjusting mechanism that could reset the learning rate depending on the progression of the iterations. 現在のsmbには、イテレーションの進行に応じて学習率をリセットできる内部学習率調整機構が欠けている。 0.61
As shown in Section 3.3, SMB can greatly benefit from a stepsize auto-scheduling routine. 3.3節で示されているように、SMBはステップサイズの自動スケジューリングルーチンから大きな恩恵を受けることができる。 0.48
This is a future work that we will consider. これは私たちが検討する将来の仕事です。 0.84
Our convergence rate analysis is given for the alternative algorithm SMBi which can perform well agains other methods but consistently underperforms the original SMB method. 収束率解析は,他の手法とよく相反するが,smb法を一貫して過小評価できる代替アルゴリズムsmbiに対して与えられた。 0.72
This begs for a convergence analysis for the SMB method. これはsmb法の収束解析を求めるものである。 0.68
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
10 References Asi, H. and Duchi, J. C. (2019). 10 参考文献 asi, h. and duchi, j. c. (2019)。 0.63
The importance of better models in stochastic optimization. 確率最適化におけるより良いモデルの重要性 0.75
Proceedings of the National Academy of Sciences, 116(46):22924–22930. 経過 国立科学アカデミー (116)(46):22924-2293 0。 0.52
Balles, L., Romero, J., and Hennig, P. (2016). Balles, L., Romero, J., and Hennig, P. (2016)。 0.88
Coupling adaptive batch sizes with learning rates. 適応バッチサイズと学習率の結合。 0.70
arXiv preprint arXiv:1612.05086. arXiv プレプリントarxiv:1612.05086。 0.39
Bollapragada, R., Byrd, R., and Nocedal, J. (2018). Bollapragada, R., Byrd, R. and Nocedal, J. (2018)。 0.84
Adaptive sampling strategies for stochastic optimization. 確率最適化のための適応サンプリング戦略 0.79
SIAM Journal on Optimization, 28(4):3312–3343. siam journal on optimization, 28(4):3312-3343を参照。 0.66
Bottou, L., Curtis, F. E., and Nocedal, J. (2018). Bottou, L., Curtis, F. E., Nocedal, J. (2018)。 0.82
Optimization methods for large-scale machine learning. 大規模機械学習のための最適化手法 0.75
SIAM Review, 60(2):223–311. SIAM Review, 60(2):223–311。 0.86
Byrd, R. H., Chin, G. M., Nocedal, J., and Wu, Y. (2012). Byrd, R. H., Chin, G. M., Nocedal, J., and Wu, Y. (2012)。 0.90
Sample size selection in optimization methods for 最適化手法におけるサンプルサイズ選択 0.86
machine learning. Mathematical Programming, 134(1):127–155. 機械学習。 数学プログラミング 134(1):127–155。 0.80
Byrd, R. H., Hansen, S. L., Nocedal, J., and Singer, Y. (2016). Byrd, R. H., Hansen, S. L., Nocedal, J., and Singer, Y. (2016)。 0.91
A stochastic quasi-newton method for 確率的準ニュートン法 0.49
large-scale optimization. SIAM Journal on Optimization, 26(2):1008–1031. 大規模最適化。 siam journal on optimization, 26(2):1008–1031 を参照。 0.64
He, K., Zhang, X., Ren, S., and Sun, J. (2016). He, K., Zhang, X., Ren, S., and Sun, J. (2016)。 0.83
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
CVPR. Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. (2017). CVPR。 Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. (2017)。 0.42
Densely connected convolutional networks. 密結合した畳み込み ネットワーク。 0.64
CVPR. Kingma, D. P. and Ba, J. (2015). CVPR。 Kingma, D. P. and Ba, J. (2015)。 0.67
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
In Bengio, Y. and LeCun, Y., editors, 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. In Bengio, Y. and LeCun, Y., editors, 3rd International Conference on Learning Representations, ICLR 2015 San Diego, CA, USA, May 7-9, Conference Track Proceedings。
訳抜け防止モード: ベンジオ, Y. and LeCun, Y., editors, 3rd International Conference on Learning Representations ICLR 2015, San Diego, CA, USA, May 7 - 9 2015 コンファレンストラックの開催。
0.80
Mahsereci, M. and Hennig, P. (2017). Mahsereci, M. and Hennig, P. (2017)。 0.48
Probabilistic line searches for stochastic optimization. 確率的最適化のための確率線形探索 0.69
The Journal of journal (複数形 journals) 0.44
Machine Learning Research, 18(1):4262–4320. 機械学習の研究 18(1):4262–4320。 0.83
Mokhtari, A. and Ribeiro, A. (2014). Mokhtari, A. and Ribeiro, A. (2014)。 0.88
Res: Regularized stochastic bfgs algorithm. Res: 正規化確率bfgsアルゴリズム。 0.74
IEEE Transactions on IEEE Transactions on 0.42
Signal Processing, 62(23):6089–6104. 信号処理62(23):6089-6104。 0.79
Mutschler, M. and Zell, A. (2020). Mutschler, M. and Zell, A. (2020)。 0.43
Parabolic approximation line search for dnns. パラボリック近似線によるdnnの探索 0.75
arXiv:1903.11991. 1903.11991年。 0.25
arXiv preprint arXiv プレプリント 0.83
Öztoprak, F. and Birbil, Ş. f. and birbil、エズトプラク。 0.45
İ. (2018). İ. (2018). 0.43
An alternative globalization strategy for unconstrained optimization. 制約のない最適化のための代替グローバル化戦略。 0.65
Optimization, 67(3):377–392. 最適化、67(3):377–392。 0.67
Paquette, C. and Scheinberg, K. (2020). paquette, c. and scheinberg, k. (2020)。 0.77
A stochastic line search method with expected complexity analysis. 複雑性解析を想定した確率線探索法 0.71
SIAM Journal on Optimization, 30(1):349–376. siam journal on optimization, 30(1):349–376を参照。 0.65
Schraudolph, N. N., Yu, J., and Günter, S. (2007). Schraudolph, N. N., Yu, J., and Günter, S. (2007)。 0.46
A stochastic quasi-newton method for online convex オンライン凸に対する確率的準ニュートン法 0.59
optimization. In Artificial Intelligence and Statistics, pages 436–443. 最適化。 人工知能と統計学では、436–443頁。 0.69
PMLR. Vaswani, S., Mishkin, A., Laradji, I., Schmidt, M., Gidel, G., and Lacoste-Julien, S. (2019). PMLR。 Vaswani, S., Mishkin, A., Laradji, I., Schmidt, M., Gidel, G., La Coste-Julien, S. (2019)。 0.63
Painless stochastic gradient: Interpolation, line-search, and convergence rates. 痛みのない確率 勾配:補間、線探索、収束率。 0.37
arXiv preprint arXiv:1905.09997. arXiv preprint arXiv:1905.09997 0.36
Wang, X., Ma, S., Goldfarb, D., and Liu, W. (2017). Wang, X., Ma, S., Goldfarb, D., and Liu, W. (2017)。 0.44
Stochastic quasi-newton methods for nonconvex stochastic 非凸確率に対する確率的準ニュートン法 0.46
optimization. SIAM Journal on Optimization, 27(2):927–956. 最適化。 siam journal on optimization, 27(2):927-956 を参照。 0.68
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
11 APPENDIX Proof of Theorem 2.1 First we show that the SMB step for each parameter group p can be expressed k,p, 11 付録 定理 2.1 の証明 まず、各パラメータ群 p に対する SMB ステップが k,p,
訳抜け防止モード: 11 付録 Theorem 2.1の証明 まずそれを示します 各パラメータ群 p の SMB ステップは k, p,
0.53
k, and yk instead of sk,p, st sk、p、stの代わりにk、yk 0.62
as a special quasi-Newton update. 特別な準ニュートン更新として。 0.63
For brevity, let us use sk, st and yk,p, respectively. brevityについては、sk、st、yk,pをそれぞれ使用しましょう。 0.61
Recalling the definitions of θ and δ given in (5), observe that (cid:107)gk(cid:107) 2 + y(cid:62) θ と δ の定義を (5) で表すと、 (cid:107)gk(cid:107) 2 + y(cid:62) が成り立つ。 0.83
(cid:107)gk(cid:107) (cid:107)yk(cid:107) + (cid:107)gk(cid:107) (cid:107)yk(cid:107) + 0.39
k(cid:107)(cid:107)g k(cid:107) − y(cid:62) k st k(cid:107)(cid:107)g k(cid:107) − y(cid:62) k st 0.41
k(cid:107)(cid:107)y k(cid:107) + k(cid:107)(cid:107)y k(cid:107) + 0.40
k,p, gk,p, gt K、P、GK、P、GT 0.54
2δ = (cid:107)st 2δ = (cid:107)st 0.41
k, gk, gt k = αk K、GK、GT k = αk 0.47
= αkσ, (cid:18) αkσ である。 (cid:18) 0.44
(cid:19) (cid:107)st (cid:19) (cid:107)st 0.41
k gk 1 η 1 η kgk 1 η 1 η 0.35
and θ =(cid:0)y(cid:62) そして θ =(cid:0)y(cid:62) 0.57
k st k + 2δ(cid:1)2 − (cid:107)st k st です。 k + 2δ(cid:1)2 − (cid:107)st 0.49
k(cid:107)2(cid:107) yk(cid:107)2 = α2 k(cid:107)2(cid:107) yk(cid:107)2 = α2 0.41
k(σ − y(cid:62) k(σ − y(cid:62) 0.48
k gk)2 − α2 k gk)2 − α2 0.49
k(cid:107)gk(cid:107 )2(cid:107)yk(cid:10 7)2 = α2 k(cid:107)gk(cid:107 )2(cid:107)yk(cid:10 7)2 = α2 0.41
k(β2 − (cid:107)gk(cid:107) 2(cid:107)yk(cid:107 )2) = α2 kγ, k(β2 − (cid:107)gk(cid:107) 2(cid:107)yk(cid:107 )2) = α2 kγ, 0.41
where σ = (cid:107)gk(cid:107) (cid:107)yk(cid:107) + どこに σ = (cid:107)gk(cid:107) (cid:107)yk(cid:107) + 0.54
1 η (cid:107)gk(cid:107) 2 + y(cid:62) 1 η (cid:107)gk(cid:107) 2 + y(cid:62) 0.42
k gk, β = σ − y(cid:62) k gk, β = σ − y(cid:62) 0.50
k gk, and γ = (β2 − (cid:107)gk(cid:107) 2(cid:107)yk(cid:107 )2). kgk, and γ = (β2 − (cid:107)gk(cid:107) 2(cid:107)yk(cid:107 )2) 0.45
Therefore, we have and したがって、我々は そして 0.79
k(cid:107)2 cg(δ)gk = −(cid:107)st 2δ k(cid:107)2 cy(δ)yk = −(cid:107)st 2δθ = −(cid:107)gk(cid:107) 2 (cid:107)gk(cid:107) 2 = −αk σγ k(cid:107)2 cg(δ)gk = −(cid:107)st 2δ k(cid:107)2 cy(δ)yk = −(cid:107)st 2δθ = −(cid:107)gk(cid:107) 2 (cid:107)gk(cid:107) 2 = −αk σγ 0.43
αkσγ gk = − α2 αkσγ gk = − α2 0.36
k(cid:107)gk(cid:107 )2 αkσγ k(cid:107)gk(cid:107 )2 αkσγ 0.36
γgk = −αk (cid:107)gk(cid:107) 2 σγ γgk = −αk (cid:107)gk(cid:107) 2 σγ 0.36
γgk, k + 2δ)(st γgk。 k + 2δ(st) 0.63
k)(cid:62)gk + (cid:107)st k)(cid:62)gk + (cid:107)st 0.44
[−(y(cid:62) k st k(σ − y(cid:62) [βykg(cid:62) [−(y(cid:62) k st k(σ − y(cid:62) [βykg(cid:62) 0.48
yk[α2 k gk)g(cid:62) yk[α2] k gk)g(cid:62) 0.42
k gk + α2 k + (cid:107)gk(cid:107) 2yky(cid:62) k gk + α2 k + (cid:107)gk(cid:107) 2yky(cid:62) 0.44
k ]gk, k gk]yk K]gk, k gk]yk 0.41
k(cid:107)2y(cid:62) k(cid:107)gk(cid:107 )2y(cid:62) k(cid:107)2y(cid:62) k(cid:107)gk(cid:107 )2y(cid:62) 0.37
k gk] cs(δ)st kgk] cs(δ)st 0.32
k(cid:107)2 k = −(cid:107)st 2δθ = −(cid:107)gk(cid:107) 2 (cid:107)gk(cid:107) 2 = −αk σγ k(cid:107)2 k = −(cid:107)st 2δθ = −(cid:107)gk(cid:107) 2 (cid:107)gk(cid:107) 2 = −αk σγ 0.40
αkσγ k + 2δ)y(cid:62) αkσγ k + 2δ)y(cid:62) 0.34
[−(y(cid:62) k st (−αk)gk[−αk(σ − y(cid:62) k + (cid:107)yk(cid:107) 2gkg(cid:62) [−(y(cid:62) k st (−αk)gk[−αk(σ − y(cid:62) k + (cid:107)yk(cid:107) 2gkg(cid:62) 0.44
[βgky(cid:62) 【βgky(cid:62)】 0.61
k ]gk. k gk + (cid:107)yk(cid:107) 2(st k]gk。 k gk + (cid:107)yk(cid:107) 2(st) 0.41
k)(cid:62)gk]st k)(cid:62)gk]st 0.48
k k gk)y(cid:62) k k gk)y(cid:62) 0.66
k gk − αk(cid:107)yk(cid:107 )2g(cid:62) k gk − αk(cid:107)yk(cid:107 )2g(cid:62) 0.39
k gk] Now, it is easy to see that kgk] さて、それを見るのは簡単です。 0.43
sk = cg(δ)gk + cy(δ)yk + cs(δ)st k sk = cg(δ)gk + cy(δ)yk + cs(δ)st k 0.42
= −αk k + (cid:107)gk(cid:107) 2yky(cid:62) =-αk k + (cid:107)gk(cid:107) 2yky(cid:62) 0.37
k + βgky(cid:62) k + βgky(cid:62) 0.41
k + (cid:107)yk(cid:107) 2gkg(cid:62) k + (cid:107)yk(cid:107) 2gkg(cid:62) 0.39
k (cid:3) gk. k (cid:3)gk。 0.82
Thus, for each parameter group p, we define したがって、各パラメータ群 p に対して、我々は定義する。 0.63
Hk,p = (cid:107)gk,p(cid:10 7)2 σpγp Hk,p = (cid:107)gk,p(cid:10 7)2 σpγp 0.40
(cid:107)gk(cid:107) 2 σγ (cid:107)gk(cid:107) 2 σγ 0.39
(cid:2)γI + βykg(cid:62) (cid:2)γpI + βpyk,pg(cid:62) (cid:2)γI + βykg(cid:62) (cid:2)γpI + βpyk,pg(cid:62) 0.37
k,p + (cid:107)gk,p(cid:10 7)2yk,py(cid:62) k,p + (cid:107)gk,p(cid:10 7)2yk,py(cid:62) 0.44
k,p + βpgk,py(cid:62) k,p + βpgk,py(cid:62) 0.46
k,p + (cid:107)yk,p(cid:10 7)2gk,pg(cid:62) k,p + (cid:107)yk,p(cid:10 7)2gk,pg(cid:62) 0.44
k,p (cid:3) , k,p (cid:3)。 0.52
(9) where σp = (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + (9) どこに σp = (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + 0.50
1 η (cid:107)gk,p(cid:10 7)2 + y(cid:62) 1 η (cid:107)gk,p(cid:10 7)2 + y(cid:62) 0.43
k,pgk,p, βp = σp − y(cid:62) k,pgk,p,βp = σp − y(cid:62) 0.46
k,pgk,p, and γp = (β2 k,pgk,p,γp = (β2) 0.46
p − (cid:107)gk,p(cid:10 7)2(cid:107)yk,p(cid :107)2). p − (cid:107)gk,p(cid:10 7)2(cid:107)yk,p(cid :107)2) 0.44
Now, assuming that we have the parameter groups {p1, . . . , pn}, the SMB steps can be expressed as a さて、パラメータ群 {p1, . , pn} が存在すると仮定すると、SMB ステップは a として表現できる。 0.72
quasi-Newton update given by xk+1 = xk − αkHkgk, 準ニュートンの更新 xk+1 = xk − αkhkgk。 0.72
英語(論文から抽出)日本語訳スコア
Birbil, Martin, Onay & Öztoprak: Stochastic Model Building (SMB) Birbil, Martin, Onay & Oztoprak: Stochastic Model Building (SMB) 0.42
12 where Hk = 12 どこに Hk= 0.50
(cid:40) I, diag(Hk,p1 , . . . , Hk,pn ), otherwise. (系統:40) i, diag(hk,p1 , . . . . . . , hk,pn )。 0.50
if the Armijo condition is satisfied; アルミジョ条件が満たされた場合は 0.54
Here, I denotes the identity matrix, and diag(Hk,p1, . . . , Hk,pn ) denotes the block diagonal matrix with the blocks Hk,p1, . . . , Hk,pn. ここで I は恒等行列を表し、 diag(Hk,p1, . . , Hk,pn ) はブロック対角行列をブロック Hk,p1, . . , Hk,pn で表す。 0.68
We next show that the eigenvalues of the matrices Hk, k ≥ 1, are bounded from above and below uniformly which is, of course, obvious when Hk = I. Using the Sherman-Morrison formula twice, one can see that for each parameter group p, the matrix Hk,p is indeed the inverse of the positive semidefinite matrix 次に、行列 Hk, k ≥ 1 の固有値は、もちろん Hk = I であるとき、上から下から一様に有界であることを示す。シャーマン・モリソンの公式を2回使うと、各パラメータ群 p に対して、行列 Hk,p は正半定行列の逆であることがわかる。 0.72
Bk,p = 1 (cid:107)gk,p(cid:10 7)2 (σpI − gk,py(cid:62) Bk,p = 1 (cid:107)gk,p(cid:10 7)2(σpI − gk,py(cid:62) 0.42
k,p − yk,pg(cid:62) k,p − yk,pg(cid:62) 0.50
k,p), and hence, it is also positive semidefinite. k,p) である。 それゆえ、正の半定義でもある。 0.70
Therefore, it is enough to show the boundedness of the eigenvalues of Bk,p uniformly on k and p. したがって、k と p に対して Bk,p の固有値の有界性を示すのに十分である。 0.77
Since gk,py(cid:62) gk,py(cid:62)以降 0.82
k,p + yk,pg(cid:62) k,p + yk,pg(cid:62) 0.50
k,p is a rank two matrix, σp/(cid:107)gk,p(cid: 107)2 is an eigenvalue of Bk,p with multiplicity n − 2. k,p はランク2行列、σp/(cid:107)gk,p(cid: 107)2 は乗数 n − 2 の Bk,p の固有値である。 0.79
The remaining extreme eigenvalues are 残りの極端な固有値は 0.70
(cid:107)gk,p(cid:10 7)2 (σp−(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107)− y(cid:62) λmax(Bk,p) = with the corresponding eigenvectors (cid:107)yk,p(cid:10 7)gk,p + (cid:107)gk,p(cid:10 7)yk,p and (cid:107)yk,p(cid:10 7)gk,p − (cid:107)gk,p(cid:10 7)yk,p, respectively. (cid:107)gk,p(cid:10 7)2 (σp−(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107)−y(cid:62)λmax(bk,p) = 対応する固有ベクトル (cid:107)yk,p(cid:10 7)gk,p + (cid:107)gk,p(cid:10 7)yk,p and (cid:107)yk,p(cid:10 7)gk,p − (cid:107)gk,p(cid:10 7)yk,p − (cid:107)gk,p(cid:10 7)yk,p,p。
訳抜け防止モード: (cid:107)gk, p(cid:107)2 ( σp−(cid:107)gk, p(cid:107)(cid:107)y k, p(cid:107)− y(cid:62 ) λmax(Bk,) p) = 対応する固有ベクトル (cid:107)yk, p(cid:107)gk, p + (cid:107)gk, p(cid:107)yk, p(cid:107)yk, p(cid:107)gk, p − (cid:107)gk, p(cid:107)yk, p。
0.43
(cid:107)gk,p(cid:10 7)2 (σp +(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107)− y(cid:62) (cid:107)gk,p(cid:10 7)2 (σp +(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107)− y(cid:62) 0.42
k,pgk,p) and λmin(Bk,p) = k,pgk,p) と λmin(Bk,p) = 0.90
1 1 k,pgk,p), 1 1 k,pgk,p) である。 0.57
Observe that, λmin(Bk,p) = 観察せよ。 λmin(Bk,p) = 0.50
= = σp − (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) = = σp − (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) 0.42
k,pgk,p (cid:107)gk,p(cid:10 7)2 k,pgk,p (cid:107)gk,p(cid:10 7)2 0.43
(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + η−1(cid:107)gk,p(cid:1 07)2 + y(cid:62) (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + η−1(cid:107)gk,p(cid:1 07)2 + y(cid:62) 0.41
k,pgk,p − (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) k,pgk,p − (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) 0.44
k,pgk,p (cid:107)gk,p(cid:10 7)2 k,pgk,p (cid:107)gk,p(cid:10 7)2 0.43
η−1(cid:107)gk,p(cid:1 07)2 (cid:107)gk,p(cid:10 7)2 = η−1(cid:107)gk,p(cid:1 07)2(cid:107)gk,p(ci d:107)2 = 0.41
1 η > 1. Thus, the smallest eigenvalue Bk,p is bounded away from zero uniformly on k and p. 1 η > 1. したがって、最小の固有値 Bk,p は k と p 上の 0 から一様に外される。 0.53
Now, by our assumption of Lipschitz continuity of the gradients, for any x, y ∈ Rn and ξk, we have さて、グラデーションのリプシッツ連続性の仮定により、任意の x, y ∈ rn と sk に対して、私たちは 0.67
(cid:107)g(x, ξk) − g(y, ξk)(cid:107) ≤ L(cid:107)x − y(cid:107). (cid:107)g(x, .k) − g(y, .k)(cid:107) ≤ L(cid:107)x − y(cid:107)。 0.43
Thus, observing that (cid:107)yk,p(cid:10 7) = (cid:107)gt したがって、 (cid:107)yk,p(cid:10 7) = (cid:107)gt 0.79
λmax(Bk,p) = λmax(Bk,p) = 0.48
= = k,p − gk,p(cid:107) ≤ L(cid:107)xt σp + (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) = = k,p − gk,p(cid:107) ≤ L(cid:107)xt σp + (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) 0.43
k,p − xk,p(cid:107) ≤ αkL(cid:107)gk,p(cid: 107), we have k,pgk,p k,p − xk,p(cid:107) ≤ αkL(cid:107)gk,p(cid: 107) k,pgk,p 0.47
(cid:107)gk,p(cid:10 7)2 (cid:107)gk,p(cid:10 7)2 0.43
(cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + η−1(cid:107)gk,p(cid:1 07)2 + y(cid:62) (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) + η−1(cid:107)gk,p(cid:1 07)2 + y(cid:62) 0.41
k,pgk,p + (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) k,pgk,p + (cid:107)gk,p(cid:10 7)(cid:107)yk,p(cid: 107) − y(cid:62) 0.44
k,pgk,p 2(cid:107)gk,p(cid:1 07)(cid:107)yk,p(cid :107) + η−1(cid:107)gk,p(cid:1 07)2 k,pgk,p 2(cid:107)gk,p(cid:1 07)(cid:107)yk,p(cid :107) + η−1(cid:107)gk,p(cid:1 07)2 0.42
(cid:107)gk,p(cid:10 7)2 (cid:107)gk,p(cid:10 7)2 0.43
(cid:107)gk,p(cid:10 7)2 ≤ 2Lαk + (cid:107)gk,p(cid:10 7)2 ≤ 2Lαk + 0.39
≤ 2Lαmax + η−1. 2lαmax + η−1 である。 0.50
1 η This implies that the eigenvalues of Hk,p = B−1 k,p are bounded below by 1/(η−1 + 2Lαmax) and bounded above by 1 uniformly on k and p. 1 η これは、Hk,p = B−1 k,p の固有値は 1/(η−1 + 2Lαmax) で下界し、k と p で 1 で上界することを意味する。 0.54
This result, together with our assumptions, shows that steps of the SMBi algorithm satisfy the conditions of Theorem 2.10 in (Wang et al , 2017) with κ = 1/(η−1 + 2Lαmax) and κ = 1 and Theorem 2.1 follows as a corollary. この結果は、我々の仮定とともに、smbiアルゴリズムのステップが κ = 1/(η−1 + 2lαmax) と κ = 1 を持つ (wang et al , 2017) における定理 2.10 の条件を満たすことを示している。 0.75
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。