Fugu-MT 論文翻訳(概要): Bridging Discrete and Backpropagation: Straight-Through and Beyond

論文の概要: Bridging Discrete and Backpropagation: Straight-Through and Beyond

arxiv url: http://arxiv.org/abs/2304.08612v1
Date: Mon, 17 Apr 2023 20:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 16:32:03.341311
Title: Bridging Discrete and Backpropagation: Straight-Through and Beyond
Title（参考訳）: Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側
Authors: Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao
Abstract要約: 本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。まず、広く使われているストレート・スロー(ST)について検討し、勾配の1次近似として機能することを示した。本稿では,その勾配を近似する2階数値法であるHeun's Methodを統合するReinMaxという新しい手法を提案する。
参考スコア（独自算出の注目度）: 89.4487096430304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Backpropagation, the cornerstone of deep learning, is limited to computing gradients solely for continuous variables. This limitation hinders various research on problems involving discrete latent variables. To address this issue, we propose a novel approach for approximating the gradient of parameters involved in generating discrete latent variables. First, we examine the widely used Straight-Through (ST) heuristic and demonstrate that it works as a first-order approximation of the gradient. Guided by our findings, we propose a novel method called ReinMax, which integrates Heun's Method, a second-order numerical method for solving ODEs, to approximate the gradient. Our method achieves second-order accuracy without requiring Hessian or other second-order derivatives. We conduct experiments on structured output prediction and unsupervised generative modeling tasks. Our results show that \ours brings consistent improvements over the state of the art, including ST and Straight-Through Gumbel-Softmax. Implementations are released at https://github.com/microsoft/ReinMax.
Abstract（参考訳）: ディープラーニングの基礎となるバックプロパゲーションは、連続変数のみの計算勾配に限られている。この制限は離散潜在変数に関する様々な研究を妨げる。この問題に対処するために、離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。そこで本研究では,二階数値解法である heun's method を統合し,勾配を近似するreinmax法を提案する。本手法はヘッセンや他の二階微分を必要としない2階精度を実現する。構造化出力予測と教師なし生成モデルタスクの実験を行う。以上の結果から,ShaoursはSTやStraight-Through Gumbel-Softmaxなど,最先端技術に一貫した改善をもたらすことが示された。実装はhttps://github.com/microsoft/reinmaxでリリースされる。

関連論文リスト

Recursive Bound-Constrained AdaGrad with Applications to Multilevel and Domain Decomposition Minimization [0.0]
2つのOFOノイズ耐性アルゴリズムが提示され、制約を扱い、不正確な勾配を扱い、二階情報を使用する。数値実験は、PDEに基づく問題から深層ニューラルネットワークトレーニングに至るまでの応用について論じ、その卓越した計算効率を示す。
論文参考訳（メタデータ） (2025-07-15T17:32:10Z)
Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文参考訳（メタデータ） (2024-09-23T13:11:37Z)
Exact, Fast and Expressive Poisson Point Processes via Squared Neural Families [23.337256081314518]
2層ニューラルネットワークの2乗ノルムによる強度関数のパラメータ化により、正方形ニューラルポアソン点過程(SNEPPP)を導入する。隠れた層が固定され、第2層が単一ニューロンを持つ場合、我々のアプローチは以前の正方形ガウス過程やカーネル法と類似している。実および合成ベンチマークでSNEPPPを実証し、ソフトウェア実装を提供する。
論文参考訳（メタデータ） (2024-02-14T22:32:00Z)
HOUDINI: Escaping from Moderately Constrained Saddles [14.277428617774875]
本研究では,不等式制約の対数的数の下で,(ノイズの多い)勾配降下法がサドル点から逃れることができることを示す。我々の結果は、正規降下と勾配降下の両方に当てはまる。
論文参考訳（メタデータ） (2022-05-27T03:36:27Z)
Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文参考訳（メタデータ） (2022-03-30T11:39:00Z)
COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic Convex Optimization [4.970364068620608]
我々は,勾配オラクルによって出力される雑音の推定値を改善するために,凸性およびL平滑性を利用する。問合せ点の数と近さの増加は、より良い勾配推定に繋がることを示す。また、SGD、Adam、STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで、バニラ設定にもCOCOを適用します。
論文参考訳（メタデータ） (2021-09-07T17:21:09Z)
Robust High Dimensional Expectation Maximization Algorithm via Trimmed Hard Thresholding [24.184520829631587]
本研究では,高次元空間における任意の劣化サンプルを用いた潜在変数モデルの推定問題について検討する。本稿では,トリミング勾配ステップを付加したトリミング予測最大化法を提案する。アルゴリズムは汚損防止であり、幾何学的に(ほぼ)最適統計率に収束することを示す。
論文参考訳（メタデータ） (2020-10-19T15:00:35Z)
Exploiting Higher Order Smoothness in Derivative-free Optimization and Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。予測勾配降下アルゴリズムのランダム化近似を考察する。その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-14T10:42:23Z)
Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。我々は、測定値の低減を行う降下ステップを適応的に選択する。これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文参考訳（メタデータ） (2020-06-02T17:52:59Z)
Gradient-Free Methods for Saddle-Point Problem [125.99533416395765]
我々はGasnikov et al., 2017のアプローチを一般化し、不正確な勾配のないオラクルで(確率的な)凸最適化問題を解けるようにした。我々のアプローチは、$fracnlog n$ の要求するオラクル呼び出しの回数を削減します。論文の後半では、そのような仮定ができない場合を分析し、この問題を解決する方法の近代化方法に関する一般的なアプローチを提案する。
論文参考訳（メタデータ） (2020-05-12T16:44:27Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。