論文の概要: Straightening Out the Straight-Through Estimator: Overcoming
Optimization Challenges in Vector Quantized Networks
- arxiv url: http://arxiv.org/abs/2305.08842v1
- Date: Mon, 15 May 2023 17:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:30:45.727231
- Title: Straightening Out the Straight-Through Estimator: Overcoming
Optimization Challenges in Vector Quantized Networks
- Title(参考訳): 直線軸推定器の直線化:ベクトル量子化ネットワークにおける最適化課題の克服
- Authors: Minyoung Huh, Brian Cheung, Pulkit Agrawal, Phillip Isola
- Abstract要約: 本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。
トレーニング不安定の主な原因は,モデル埋め込みとコードベクトル分布の相違である。
この問題に寄与する要因として,コードブックの勾配幅やコミットメント損失の非対称性などを挙げる。
- 参考スコア(独自算出の注目度): 35.6604960300194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the challenges of training neural networks using vector
quantization using straight-through estimation. We find that a primary cause of
training instability is the discrepancy between the model embedding and the
code-vector distribution. We identify the factors that contribute to this
issue, including the codebook gradient sparsity and the asymmetric nature of
the commitment loss, which leads to misaligned code-vector assignments. We
propose to address this issue via affine re-parameterization of the code
vectors. Additionally, we introduce an alternating optimization to reduce the
gradient error introduced by the straight-through estimation. Moreover, we
propose an improvement to the commitment loss to ensure better alignment
between the codebook representation and the model embedding. These optimization
methods improve the mathematical approximation of the straight-through
estimation and, ultimately, the model performance. We demonstrate the
effectiveness of our methods on several common model architectures, such as
AlexNet, ResNet, and ViT, across various tasks, including image classification
and generative modeling.
- Abstract(参考訳): 本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。
トレーニング不安定の主な原因は、モデル埋め込みとコードベクトル分布の相違にあることが分かりました。
我々は、コードブックの勾配スパーシティやコミットメント損失の非対称性など、この問題に寄与する要因を特定します。
コードベクトルのアフィン再パラメータ化によりこの問題に対処する。
さらに,ストレートスルー推定によって引き起こされる勾配誤差を低減するための交互最適化を提案する。
さらに,コードブック表現とモデル埋め込みとの整合性を高めるために,コミットメント損失の改善を提案する。
これらの最適化手法は、ストレートスルー推定と最終的にモデル性能の数学的近似を改善する。
我々は,AlexNet,ResNet,ViTなどの共通モデルアーキテクチャにおける手法の有効性を,画像分類や生成モデルなど様々なタスクにわたって示す。
関連論文リスト
- Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - Adaptive operator learning for infinite-dimensional Bayesian inverse problems [7.716833952167609]
本研究では,局所的に精度の高いサロゲートを強制することによって,モデリングエラーを段階的に低減できる適応型演算子学習フレームワークを開発した。
UKIフレームワークを用いて線形の場合において厳密な収束を保証する。
その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-10-27T01:50:33Z) - Deep Graph Reprogramming [112.34663053130073]
グラフニューラルネットワーク(GNN)に適したタスク再利用モデル「ディープグラフ再プログラミング」
本稿では,モデル再プログラミングパラダイムと並行して,革新的なデータ再プログラミングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-28T02:04:29Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Adaptive Projected Residual Networks for Learning Parametric Maps from
Sparse Data [5.920947681019466]
限られた訓練データから高次元パラメトリックマップを学習するための擬似サロゲートフレームワークを提案する。
これらの応用には、ベイジアン逆問題、最適実験設計、不確実性の下での最適設計と制御のような「外部ループ」問題が含まれる。
論文 参考訳(メタデータ) (2021-12-14T01:29:19Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Modeling Design and Control Problems Involving Neural Network Surrogates [1.1602089225841632]
ニューラルネットワークで表される代理モデルを含む非線形最適化問題を考察する。
ニューラルネットワーク評価を直接最適化モデルに組み込む方法を示し、収束を防止できるこのアプローチの難しさを強調します。
本稿では、ReLUを活性化したフィードフォワードニューラルネットワークの特定の場合において、これらの問題の2つの別の定式化を提案する。
論文 参考訳(メタデータ) (2021-11-20T01:09:15Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。