論文の概要: Bridging Discrete and Backpropagation: Straight-Through and Beyond
- arxiv url: http://arxiv.org/abs/2304.08612v1
- Date: Mon, 17 Apr 2023 20:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:32:03.341311
- Title: Bridging Discrete and Backpropagation: Straight-Through and Beyond
- Title(参考訳): Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側
- Authors: Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao
- Abstract要約: 本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
まず、広く使われているストレート・スロー(ST)について検討し、勾配の1次近似として機能することを示した。
本稿では,その勾配を近似する2階数値法であるHeun's Methodを統合するReinMaxという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 89.4487096430304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backpropagation, the cornerstone of deep learning, is limited to computing
gradients solely for continuous variables. This limitation hinders various
research on problems involving discrete latent variables. To address this
issue, we propose a novel approach for approximating the gradient of parameters
involved in generating discrete latent variables. First, we examine the widely
used Straight-Through (ST) heuristic and demonstrate that it works as a
first-order approximation of the gradient. Guided by our findings, we propose a
novel method called ReinMax, which integrates Heun's Method, a second-order
numerical method for solving ODEs, to approximate the gradient. Our method
achieves second-order accuracy without requiring Hessian or other second-order
derivatives. We conduct experiments on structured output prediction and
unsupervised generative modeling tasks. Our results show that \ours brings
consistent improvements over the state of the art, including ST and
Straight-Through Gumbel-Softmax. Implementations are released at
https://github.com/microsoft/ReinMax.
- Abstract(参考訳): ディープラーニングの基礎となるバックプロパゲーションは、連続変数のみの計算勾配に限られている。
この制限は離散潜在変数に関する様々な研究を妨げる。
この問題に対処するために、離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。
そこで本研究では,二階数値解法である heun's method を統合し,勾配を近似するreinmax法を提案する。
本手法はヘッセンや他の二階微分を必要としない2階精度を実現する。
構造化出力予測と教師なし生成モデルタスクの実験を行う。
以上の結果から,ShaoursはSTやStraight-Through Gumbel-Softmaxなど,最先端技術に一貫した改善をもたらすことが示された。
実装はhttps://github.com/microsoft/reinmaxでリリースされる。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Exact, Fast and Expressive Poisson Point Processes via Squared Neural
Families [23.337256081314518]
2層ニューラルネットワークの2乗ノルムによる強度関数のパラメータ化により、正方形ニューラルポアソン点過程(SNEPPP)を導入する。
隠れた層が固定され、第2層が単一ニューロンを持つ場合、我々のアプローチは以前の正方形ガウス過程やカーネル法と類似している。
実および合成ベンチマークでSNEPPPを実証し、ソフトウェア実装を提供する。
論文 参考訳(メタデータ) (2024-02-14T22:32:00Z) - HOUDINI: Escaping from Moderately Constrained Saddles [14.277428617774875]
本研究では,不等式制約の対数的数の下で,(ノイズの多い)勾配降下法がサドル点から逃れることができることを示す。
我々の結果は、正規降下と勾配降下の両方に当てはまる。
論文 参考訳(メタデータ) (2022-05-27T03:36:27Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic
Convex Optimization [4.970364068620608]
我々は,勾配オラクルによって出力される雑音の推定値を改善するために,凸性およびL平滑性を利用する。
問合せ点の数と近さの増加は、より良い勾配推定に繋がることを示す。
また、SGD、Adam、STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで、バニラ設定にもCOCOを適用します。
論文 参考訳(メタデータ) (2021-09-07T17:21:09Z) - Robust High Dimensional Expectation Maximization Algorithm via Trimmed
Hard Thresholding [24.184520829631587]
本研究では,高次元空間における任意の劣化サンプルを用いた潜在変数モデルの推定問題について検討する。
本稿では,トリミング勾配ステップを付加したトリミング予測最大化法を提案する。
アルゴリズムは汚損防止であり、幾何学的に(ほぼ)最適統計率に収束することを示す。
論文 参考訳(メタデータ) (2020-10-19T15:00:35Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。