論文の概要: Improving Discrete Optimisation Via Decoupled Straight-Through Gumbel-Softmax
- arxiv url: http://arxiv.org/abs/2410.13331v1
- Date: Thu, 17 Oct 2024 08:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:07.347272
- Title: Improving Discrete Optimisation Via Decoupled Straight-Through Gumbel-Softmax
- Title(参考訳): Decoupled Straight-Through Gumbel-Softmaxによる離散最適化の改善
- Authors: Rushi Shah, Mingyuan Yan, Michael Curtis Mozer, Dianbo Liu,
- Abstract要約: 提案手法は,複数のタスクやデータセットにまたがる広範な実験を通じて,元のST-GSを大幅に向上することを示す。
本研究は,ディープラーニングにおける離散最適化の改善に寄与する。
- 参考スコア(独自算出の注目度): 4.427325225595673
- License:
- Abstract: Discrete representations play a crucial role in many deep learning architectures, yet their non-differentiable nature poses significant challenges for gradient-based optimization. To address this issue, various gradient estimators have been developed, including the Straight-Through Gumbel-Softmax (ST-GS) estimator, which combines the Straight-Through Estimator (STE) and the Gumbel-based reparameterization trick. However, the performance of ST-GS is highly sensitive to temperature, with its selection often compromising gradient fidelity. In this work, we propose a simple yet effective extension to ST-GS by employing decoupled temperatures for forward and backward passes, which we refer to as "Decoupled ST-GS". We show that our approach significantly enhances the original ST-GS through extensive experiments across multiple tasks and datasets. We further investigate the impact of our method on gradient fidelity from multiple perspectives, including the gradient gap and the bias-variance trade-off of estimated gradients. Our findings contribute to the ongoing effort to improve discrete optimization in deep learning, offering a practical solution that balances simplicity and effectiveness.
- Abstract(参考訳): 離散表現は多くのディープラーニングアーキテクチャにおいて重要な役割を果たすが、その非微分性は勾配に基づく最適化に重大な課題をもたらす。
この問題に対処するために、STE(Straight-Through Estimator)とGumbelベースのパラメータ化トリックを組み合わせたST-GS(Straight-Through Gumbel-Softmax)推定器など、様々な勾配推定器が開発された。
しかし、ST-GSの性能は温度に非常に敏感であり、その選択はしばしば勾配の忠実度を損なう。
本研究は,ST-GSの非結合温度を前後のパスに利用することにより,ST-GSの簡易かつ効果的な拡張を提案し,これを「非結合ST-GS」と呼ぶ。
提案手法は,複数のタスクやデータセットにまたがる広範な実験を通じて,元のST-GSを大幅に向上することを示す。
さらに,本手法が推定勾配の勾配ギャップやバイアス分散トレードオフなど,多視点からの勾配忠実度に与える影響について検討する。
我々の研究結果は、ディープラーニングにおける離散的な最適化を改善するための継続的な努力に寄与し、シンプルさと効率性のバランスをとる実用的なソリューションを提供する。
関連論文リスト
- Bayesian Parameter Shift Rule in Variational Quantum Eigensolvers [4.431744869863552]
本稿では、適切なカーネルを持つガウス過程を用いてVQE目標の勾配を推定するベイズ変法を提案する。
勾配降下(SGD)では、ベイズPSRの柔軟性により、前のステップでの観測の再利用が可能となり、最適化プロセスが加速される。
数値実験の結果,ベイジアンPSRとGradCoReによるVQE最適化はSGDを著しく高速化し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T14:44:31Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight [15.139854970044075]
我々はDP-PSASC(disferially Private Per-Sample Adaptive Scaling Clipping)を導入する。
このアプローチは、従来のクリッピングを非単調適応勾配スケーリングに置き換える。
DP-PSASCは勾配のプライバシーを保ち、多様なデータセットに優れた性能を提供する。
論文 参考訳(メタデータ) (2024-11-05T12:47:30Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Generalization of Universal Adversarial Perturbation through
Gradient Aggregation [40.18851174642427]
深部ニューラルネットワークは普遍的逆境摂動(UAP)に脆弱である
本稿では,一般化の観点から,UAP生成手法の真剣なジレンマについて検討する。
グラディエント・アグリゲーション(SGA)と呼ばれるシンプルで効果的な手法を提案する。
SGAは勾配の消失を緩和し、局所最適度の低下から同時に逃れる。
論文 参考訳(メタデータ) (2023-08-11T08:44:58Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。
下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。
この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-25T10:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。