Fugu-MT 論文翻訳(概要): MARS: Masked Automatic Ranks Selection in Tensor Decompositions

論文の概要: MARS: Masked Automatic Ranks Selection in Tensor Decompositions

arxiv url: http://arxiv.org/abs/2006.10859v2
Date: Fri, 18 Jun 2021 11:48:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-19 13:05:04.552223
Title: MARS: Masked Automatic Ranks Selection in Tensor Decompositions
Title（参考訳）: MARS: テンソル解体における仮設自動ランク選択
Authors: Maxim Kodryan, Dmitry Kropotov, Dmitry Vetrov
Abstract要約: 我々は、一般的なテンソル分解におけるランクの自動選択のための新しい効率的な方法であるMARSを紹介する。訓練中、この手順は、最適テンソル構造を「選択」する分解コア上の二項マスクを学習する。提案手法は, 各種タスクにおける従来の作業と比較して, より優れた結果が得られる。
参考スコア（独自算出の注目度）: 1.4824891788575418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tensor decomposition methods are known to be efficient for compressing and accelerating neural networks. However, the problem of optimal decomposition structure determination is still not well studied while being quite important. Specifically, decomposition ranks present the crucial parameter controlling the compression-accuracy trade-off. In this paper, we introduce MARS -- a new efficient method for the automatic selection of ranks in general tensor decompositions. During training, the procedure learns binary masks over decomposition cores that "select" the optimal tensor structure. The learning is performed via relaxed maximum a posteriori (MAP) estimation in a specific Bayesian model. The proposed method achieves better results compared to previous works in various tasks.
Abstract（参考訳）: テンソル分解法はニューラルネットワークの圧縮と加速に効率的であることが知られている。しかし, 最適分解構造決定の問題は非常に重要でありながら, 未だ十分に研究されていない。具体的には、分解ランクは圧縮精度トレードオフを制御する重要なパラメータを示す。本稿では、一般的なテンソル分解におけるランクの自動選択のための新しい効率的な方法であるMARSを紹介する。トレーニング中は、最適なテンソル構造を「選択」する分解コア上でバイナリマスクを学習する。学習は、特定のベイズモデルにおける最大後方(map)推定を緩和することで行われる。提案手法は, 各種タスクにおける従来の作業よりも優れた結果が得られる。

関連論文リスト

MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Calibrating the Rigged Lottery: Making All Tickets Reliable [14.353428281239665]
信頼性校正を改善したスパースモデルを生成するための新しいスパーストレーニング手法を提案する。本手法は,計算量や記憶負荷をわずかに増加させるだけで,同時に精度を向上する。
論文参考訳（メタデータ） (2023-02-18T15:53:55Z)
Research of Damped Newton Stochastic Gradient Descent Method for Neural Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文参考訳（メタデータ） (2021-03-31T02:07:18Z)
Margin-Based Regularization and Selective Sampling in Deep Neural Networks [7.219077740523683]
我々は、ディープニューラルネットワーク(DNN)のための新しいマージンベース正規化形式、MMR(Multi-margin regularization)を導出する。 CIFAR10, CIFAR100, ImageNet上で, MNLI, QQP, QNLI, MRPC, SST-2, RTEベンチマークのための最先端畳み込みニューラルネットワーク(CNN)とBERT-BASEアーキテクチャを用いて, 実験結果の改善を示す。
論文参考訳（メタデータ） (2020-09-13T15:06:42Z)
Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。 Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文参考訳（メタデータ） (2020-07-20T05:57:42Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
MLE-guided parameter search for task loss minimization in neural sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文参考訳（メタデータ） (2020-06-04T22:21:22Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)
Stochastic gradient descent with random learning rate [0.0]
本稿では,一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。ランダムな学習率プロトコルを周期的および定常的なプロトコルと比較することにより、ランダムな選択は、一般に小規模学習率体系における最良の戦略であると示唆する。我々は、MNISTデータセットとCIFAR10データセットの画像分類のための、浅い、完全に接続された、深い、畳み込みニューラルネットワークの実験を通じて、支持エビデンスを提供する。
論文参考訳（メタデータ） (2020-03-15T21:36:46Z)
Automated Deep Abstractions for Stochastic Chemical Reaction Networks [0.0]
低レベル化学反応ネットワーク(CRN)モデルは高次元連続時間マルコフ連鎖(CTMC)を生じさせる最近提案された抽象化手法では,このCTMCを離散時間連続空間プロセスに置き換えるためにディープラーニングを用いる。本稿では、最適なニューラルネットワークアーキテクチャを学習することで、CRNの深い抽象化をさらに自動化することを提案する。
論文参考訳（メタデータ） (2020-01-30T13:49:58Z)
MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文参考訳（メタデータ） (2020-01-28T18:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。