論文の概要: Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices
- arxiv url: http://arxiv.org/abs/2103.17142v1
- Date: Wed, 31 Mar 2021 15:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:18:39.612170
- Title: Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices
- Title(参考訳): スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮
- Authors: Gon\c{c}alo Mordido, Matthijs Van keirsbilck, and Alexander Keller
- Abstract要約: 1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
同じパラメータ予算で、より深く、より表現力のあるモデルを提供できます。
Google Speech Commands v1でのコマンド認識では、同じネットワークサイズで最先端の精度を97.21%から97.41%に改善する。
Librispeechでの音声認識では、トレーニング対象重量の約半分を、フローティングの約1%を犠牲にしている。
- 参考スコア(独自算出の注目度): 65.4388266814055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that 1x1-convolutions in 1D time-channel separable
convolutions may be replaced by constant, sparse random ternary matrices with
weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do
not require training. Moreover, the matrices may be generated on the chip
during computation and therefore do not require any memory access. With the
same parameter budget, we can afford deeper and more expressive models,
improving the Pareto frontiers of existing models on several tasks. For command
recognition on Google Speech Commands v1, we improve the state-of-the-art
accuracy from 97.21\% to 97.41\% at the same network size. Alternatively, we
can lower the cost of existing models. For speech recognition on Librispeech,
we half the number of weights to be trained while only sacrificing about $1\%$
of the floating-point baseline's word error rate.
- Abstract(参考訳): 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。
このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。
さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。
同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。
Google Speech Commands v1でのコマンド認識では、同じネットワークサイズで最先端の精度を97.21\%から97.41\%に改善する。
あるいは、既存のモデルのコストを下げることもできます。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。
関連論文リスト
- ReALLM: A general framework for LLM compression and fine-tuning [11.738510106847414]
ReALLMは、事前訓練された言語モデルの圧縮とメモリ効率の適応のための新しいアプローチである。
重みのみの量子化アルゴリズムは、トレーニングなしで3ドルビットの予算で言語生成タスク(C4とWikiText-2)の最良の結果を得る。
論文 参考訳(メタデータ) (2024-05-21T18:50:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。