Fugu-MT 論文翻訳(概要): Debiasing Distributed Second Order Optimization with Surrogate Sketching and Scaled Regularization

論文の概要: Debiasing Distributed Second Order Optimization with Surrogate Sketching and Scaled Regularization

arxiv url: http://arxiv.org/abs/2007.01327v1
Date: Thu, 2 Jul 2020 18:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 14:02:25.385121
Title: Debiasing Distributed Second Order Optimization with Surrogate Sketching and Scaled Regularization
Title（参考訳）: スパゲートスケッチとスケールド正規化による分散二階最適化のデバイアス化
Authors: Micha{\l} Derezi\'nski, Burak Bartan, Mert Pilanci and Michael W. Mahoney
Abstract要約: 分散第2次最適化において、標準的な戦略は、データの小さなスケッチやバッチに基づいて、多くの局所的な見積もりを平均化することである。本稿では,分散二階法における収束率の理論的および実証的改善を両立させるため,局所的な推定を嫌悪する新しい手法を提案する。
参考スコア（独自算出の注目度）: 101.5159744660701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In distributed second order optimization, a standard strategy is to average many local estimates, each of which is based on a small sketch or batch of the data. However, the local estimates on each machine are typically biased, relative to the full solution on all of the data, and this can limit the effectiveness of averaging. Here, we introduce a new technique for debiasing the local estimates, which leads to both theoretical and empirical improvements in the convergence rate of distributed second order methods. Our technique has two novel components: (1) modifying standard sketching techniques to obtain what we call a surrogate sketch; and (2) carefully scaling the global regularization parameter for local computations. Our surrogate sketches are based on determinantal point processes, a family of distributions for which the bias of an estimate of the inverse Hessian can be computed exactly. Based on this computation, we show that when the objective being minimized is $l_2$-regularized with parameter $\lambda$ and individual machines are each given a sketch of size $m$, then to eliminate the bias, local estimates should be computed using a shrunk regularization parameter given by $\lambda^{\prime}=\lambda\cdot(1-\frac{d_{\lambda}}{m})$, where $d_{\lambda}$ is the $\lambda$-effective dimension of the Hessian (or, for quadratic problems, the data matrix).
Abstract（参考訳）: 分散第2次最適化において、標準的な戦略は、データの小さなスケッチやバッチに基づいて、多くの局所的な見積もりを平均化することである。しかし、各マシンの局所的な推定値は、すべてのデータに対する完全な解と比較して偏りがあり、平均化の有効性を制限できる。本稿では,分散2次手法の収束率を理論的にも経験的にも改善し,局所的な推定値の偏りを解消する新しい手法を提案する。本手法は,(1)サロゲートスケッチと呼ぶものを得るための標準スケッチ技法の修正,(2)局所計算のためのグローバル正規化パラメータの注意深くスケーリングすること,の2つの新しい特徴を有する。我々の代理スケッチは行列点過程に基づいており、逆 Hessian の推定値のバイアスを正確に計算できる分布の族である。この計算に基づいて、最小化された対象が$l_2$-レギュラライズされたパラメータ$\lambda$で、個々のマシンがそれぞれサイズが$m$のスケッチを与えられたとき、バイアスを取り除くために、局所的な推定は$\lambda^{\prime}=\lambda\cdot(1-\frac{d_{\lambda}}{m})$で与えられるシュルーンク正規化パラメータを用いて計算されるべきであることを示した。

関連論文リスト

Fast Convergence for High-Order ODE Solvers in Diffusion Probabilistic Models [5.939858158928473]
拡散確率モデルは、データをノイズに変換するノイズ注入プロセスの逆転を学ぶことでサンプルを生成する。この逆過程を決定論的確率フロー常微分方程式(ODE)として再構成することで、高次解法を用いた効率的なサンプリングが可能になる。スコア関数は一般的にニューラルネットワークによって近似されるため、全体のサンプリング精度を理解する上では、その正則性、近似誤差、数値積分誤差の相互作用を分析することが重要である。
論文参考訳（メタデータ） (2025-06-16T03:09:25Z)
Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient [40.22217106270146]
ばらつき低減技術はサンプリングのばらつきを低減し、一階法(FO)とゼロ階法(ZO)の収束率を向上するように設計されている。複合最適化問題において、ZO法は、ランダム推定から導かれる座標ワイド分散と呼ばれる追加の分散に遭遇する。本稿では,ZPDVR法とZPDVR法を提案する。
論文参考訳（メタデータ） (2024-05-28T02:27:53Z)
Rate Analysis of Coupled Distributed Stochastic Approximation for Misspecified Optimization [0.552480439325792]
パラメトリックな特徴を持つ不完全な情報を持つ分散最適化問題として$n$のエージェントを考える。本稿では,各エージェントが未知パラメータの現在の信念を更新する分散近似アルゴリズムを提案する。アルゴリズムの性能に影響を与える因子を定量的に解析し、決定変数の平均二乗誤差が$mathcalO(frac1nk)+mathcalOleft(frac1sqrtn (1-rho_w)right)frac1k1.5で有界であることを証明する。
論文参考訳（メタデータ） (2024-04-21T14:18:49Z)
Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee [86.05440220344755]
我々は,非制約のmin-max最適化問題のグローバルなサドル点を求めるために,不正確な正規化ニュートン型手法を提案し,解析する。提案手法は有界集合内に留まるイテレートを生成し、その反復は制限関数の項で$O(epsilon-2/3)$内の$epsilon$-saddle点に収束することを示す。
論文参考訳（メタデータ） (2022-10-23T21:24:37Z)
DRSOM: A Dimension Reduced Second-Order Method [13.778619250890406]
信頼的な枠組みの下では,2次法の収束を保ちながら,数方向の情報のみを用いる。理論的には,この手法は局所収束率と大域収束率が$O(epsilon-3/2)$であり,第1次条件と第2次条件を満たすことを示す。
論文参考訳（メタデータ） (2022-07-30T13:05:01Z)
Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文参考訳（メタデータ） (2022-05-27T00:34:03Z)
Distributed Sketching for Randomized Optimization: Exact Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文参考訳（メタデータ） (2022-03-18T05:49:13Z)
Stochastic regularized majorization-minimization with weakly convex and multi-convex surrogates [0.0]
提案アルゴリズムの最初の最適性ギャップは,非テンソル依存データ設定下での様々な手法の期待損失率で減衰することを示す。非テンション依存データ設定の下で, 各種手法の収束点を求める。
論文参考訳（メタデータ） (2022-01-05T15:17:35Z)
Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文参考訳（メタデータ） (2021-11-12T01:51:50Z)
Private Stochastic Non-Convex Optimization: Adaptive Algorithms and Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文参考訳（メタデータ） (2020-06-24T06:01:24Z)
Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文参考訳（メタデータ） (2020-02-16T09:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。