論文の概要: Towards Quantized Model Parallelism for Graph-Augmented MLPs Based on
Gradient-Free ADMM framework
- arxiv url: http://arxiv.org/abs/2105.09837v1
- Date: Thu, 20 May 2021 15:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:23:04.535124
- Title: Towards Quantized Model Parallelism for Graph-Augmented MLPs Based on
Gradient-Free ADMM framework
- Title(参考訳): グラディエントフリーADMMフレームワークに基づくグラフ拡張MLPの量子モデル並列化に向けて
- Authors: Junxiang Wang, Hongyi Li, Zheng Chai, Yongchao Wang, Yue Cheng and
Liang Zhao
- Abstract要約: Graph Augmented Multi-layer Perceptron(GA-MLP)モデルはグラフニューラルネットワーク(GNN)の魅力的な代替品である
これは、過度に滑らかな問題に耐性があり、より深いGA-MLPモデルによりより良い性能が得られるためである。
本稿では,モデル並列化を実現するために,深層学習によるマルチプライヤの代替指向法(pdADMM)を提案する。
- 参考スコア(独自算出の注目度): 22.5155416051303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Graph Augmented Multi-layer Perceptron (GA-MLP) model is an attractive
alternative to Graph Neural Networks (GNNs). This is because it is resistant to
the over-smoothing problem, and deeper GA-MLP models yield better performance.
GA-MLP models are traditionally optimized by the Stochastic Gradient Descent
(SGD). However, SGD suffers from the layer dependency problem, which prevents
the gradients of different layers of GA-MLP models from being calculated in
parallel. In this paper, we propose a parallel deep learning Alternating
Direction Method of Multipliers (pdADMM) framework to achieve model
parallelism: parameters in each layer of GA-MLP models can be updated in
parallel. The extended pdADMM-Q algorithm reduces communication cost by
utilizing the quantization technique. Theoretical convergence to a critical
point of the pdADMM algorithm and the pdADMM-Q algorithm is provided with a
sublinear convergence rate $o(1/k)$. Extensive experiments in six benchmark
datasets demonstrate that the pdADMM can lead to high speedup, and outperforms
all the existing state-of-the-art comparison methods.
- Abstract(参考訳): Graph Augmented Multi-layer Perceptron(GA-MLP)モデルは、グラフニューラルネットワーク(GNN)の魅力的な代替品である。
これはオーバースムーシング問題に耐性があり、より深いga-mlpモデルの方が優れた性能をもたらすためである。
GA-MLPモデルは伝統的にStochastic Gradient Descent (SGD)によって最適化されている。
しかし、SGDは層依存性の問題に悩まされ、GA-MLPモデルの異なる層の勾配が並列に計算されるのを防ぐ。
本稿では,GA-MLPモデルの各層におけるパラメータを並列に更新する,モデル並列化を実現するための並列ディープラーニング代替指向手法(pdADMM)を提案する。
拡張pdadmm-qアルゴリズムは、量子化技術を用いて通信コストを削減する。
pdADMMアルゴリズムとpdADMM-Qアルゴリズムの臨界点への理論的収束は、サブ線形収束率$o(1/k)$である。
6つのベンチマークデータセットの大規模な実験により、pdADMMは高速な高速化につながることが示され、既存の最先端比較手法よりも優れている。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - From graphs to DAGs: a low-complexity model and a scalable algorithm [0.0]
本稿では,低ランク行列因数分解とDAGの連続的な最適化のためのスペース化機構を組み合わせたLoRAM for Low-Rank Additive Modelを提案する。
提案手法は,NoTearsと同じDAG特性関数を扱いながら,立方的複雑性から二次的複雑性への還元を実現する。
論文 参考訳(メタデータ) (2022-04-10T10:22:56Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Mixed Policy Gradient: off-policy reinforcement learning driven jointly
by data and model [32.61834127169759]
強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。
メインストリームのRLアルゴリズムはデータ駆動であり、通常、モデル駆動の手法に比べて性能は向上するが、収束は遅くなる。
本稿では,政策勾配(PG)における経験的データと遷移モデルを融合したMPGアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-23T06:05:17Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z) - Multi-Fidelity High-Order Gaussian Processes for Physical Simulation [24.033468062984458]
高忠実度偏微分方程式(PDE)は低忠実度偏微分方程式よりも高価である。
複雑な相関関係を捉えることができるMFHoGP(Multi-Fidelity High-Order Gaussian Process)を提案する。
MFHoGPは、情報を融合するために基礎を伝播し、基礎重みよりも先に深い行列GPを配置する。
論文 参考訳(メタデータ) (2020-06-08T22:31:59Z) - Dual Stochastic Natural Gradient Descent and convergence of interior
half-space gradient approximations [0.0]
多項ロジスティック回帰(MLR)は統計学や機械学習で広く使われている。
勾配降下(SGD)は、ビッグデータシナリオにおけるMLRモデルのパラメータを決定する最も一般的な手法である。
論文 参考訳(メタデータ) (2020-01-19T00:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。