論文の概要: Bridging Discrete and Backpropagation: Straight-Through and Beyond
- arxiv url: http://arxiv.org/abs/2304.08612v2
- Date: Tue, 3 Oct 2023 02:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:20:56.965153
- Title: Bridging Discrete and Backpropagation: Straight-Through and Beyond
- Title(参考訳): Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側
- Authors: Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao
- Abstract要約: 本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
- 参考スコア(独自算出の注目度): 62.46558842476455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backpropagation, the cornerstone of deep learning, is limited to computing
gradients for continuous variables. This limitation poses challenges for
problems involving discrete latent variables. To address this issue, we propose
a novel approach to approximate the gradient of parameters involved in
generating discrete latent variables. First, we examine the widely used
Straight-Through (ST) heuristic and demonstrate that it works as a first-order
approximation of the gradient. Guided by our findings, we propose ReinMax,
which achieves second-order accuracy by integrating Heun's method, a
second-order numerical method for solving ODEs. ReinMax does not require
Hessian or other second-order derivatives, thus having negligible computation
overheads. Extensive experimental results on various tasks demonstrate the
superiority of ReinMax over the state of the art. Implementations are released
at https://github.com/microsoft/ReinMax.
- Abstract(参考訳): ディープラーニングの基礎となるバックプロパゲーションは、連続変数の計算勾配に限られている。
この制限は離散潜在変数を含む問題に対して問題を引き起こす。
この問題に対処するために,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。
そこで本研究では,2次数値解法である heun's method を統合することで2次精度を実現する reinmax を提案する。
ReinMaxはHessianや他の二階微分を必要としないため、計算オーバーヘッドは無視できる。
様々なタスクに関する大規模な実験結果は、ReinMaxが最先端技術よりも優れていることを示している。
実装はhttps://github.com/microsoft/reinmaxでリリースされる。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Exact, Fast and Expressive Poisson Point Processes via Squared Neural
Families [23.337256081314518]
2層ニューラルネットワークの2乗ノルムによる強度関数のパラメータ化により、正方形ニューラルポアソン点過程(SNEPPP)を導入する。
隠れた層が固定され、第2層が単一ニューロンを持つ場合、我々のアプローチは以前の正方形ガウス過程やカーネル法と類似している。
実および合成ベンチマークでSNEPPPを実証し、ソフトウェア実装を提供する。
論文 参考訳(メタデータ) (2024-02-14T22:32:00Z) - HOUDINI: Escaping from Moderately Constrained Saddles [14.277428617774875]
本研究では,不等式制約の対数的数の下で,(ノイズの多い)勾配降下法がサドル点から逃れることができることを示す。
我々の結果は、正規降下と勾配降下の両方に当てはまる。
論文 参考訳(メタデータ) (2022-05-27T03:36:27Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic
Convex Optimization [4.970364068620608]
我々は,勾配オラクルによって出力される雑音の推定値を改善するために,凸性およびL平滑性を利用する。
問合せ点の数と近さの増加は、より良い勾配推定に繋がることを示す。
また、SGD、Adam、STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで、バニラ設定にもCOCOを適用します。
論文 参考訳(メタデータ) (2021-09-07T17:21:09Z) - Robust High Dimensional Expectation Maximization Algorithm via Trimmed
Hard Thresholding [24.184520829631587]
本研究では,高次元空間における任意の劣化サンプルを用いた潜在変数モデルの推定問題について検討する。
本稿では,トリミング勾配ステップを付加したトリミング予測最大化法を提案する。
アルゴリズムは汚損防止であり、幾何学的に(ほぼ)最適統計率に収束することを示す。
論文 参考訳(メタデータ) (2020-10-19T15:00:35Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。