Fugu-MT 論文翻訳(概要): Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices

論文の概要: Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices

arxiv url: http://arxiv.org/abs/2103.17142v1
Date: Wed, 31 Mar 2021 15:09:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-01 14:18:39.612170
Title: Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices
Title（参考訳）: スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮
Authors: Gon\c{c}alo Mordido, Matthijs Van keirsbilck, and Alexander Keller
Abstract要約: 1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。同じパラメータ予算で、より深く、より表現力のあるモデルを提供できます。 Google Speech Commands v1でのコマンド認識では、同じネットワークサイズで最先端の精度を97.21%から97.41%に改善する。 Librispeechでの音声認識では、トレーニング対象重量の約半分を、フローティングの約1%を犠牲にしている。
参考スコア（独自算出の注目度）: 65.4388266814055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We demonstrate that 1x1-convolutions in 1D time-channel separable convolutions may be replaced by constant, sparse random ternary matrices with weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do not require training. Moreover, the matrices may be generated on the chip during computation and therefore do not require any memory access. With the same parameter budget, we can afford deeper and more expressive models, improving the Pareto frontiers of existing models on several tasks. For command recognition on Google Speech Commands v1, we improve the state-of-the-art accuracy from 97.21\% to 97.41\% at the same network size. Alternatively, we can lower the cost of existing models. For speech recognition on Librispeech, we half the number of weights to be trained while only sacrificing about $1\%$ of the floating-point baseline's word error rate.
Abstract（参考訳）: 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。 Google Speech Commands v1でのコマンド認識では、同じネットワークサイズで最先端の精度を97.21\%から97.41\%に改善する。あるいは、既存のモデルのコストを下げることもできます。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。

関連論文リスト

Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2025-03-11T15:15:54Z)
ReALLM: A general framework for LLM compression and fine-tuning [11.738510106847414]
ReALLMは、事前訓練された言語モデルの圧縮とメモリ効率の適応のための新しいアプローチである。重みのみの量子化アルゴリズムは、トレーニングなしで3ドルビットの予算で言語生成タスク(C4とWikiText-2)の最良の結果を得る。
論文参考訳（メタデータ） (2024-05-21T18:50:51Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文参考訳（メタデータ） (2022-10-19T17:25:33Z)
Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文参考訳（メタデータ） (2022-08-09T02:29:42Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文参考訳（メタデータ） (2021-12-14T18:13:36Z)
Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文参考訳（メタデータ） (2020-12-21T13:56:04Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。