論文の概要: A Fully Tensorized Recurrent Neural Network
- arxiv url: http://arxiv.org/abs/2010.04196v3
- Date: Wed, 10 Nov 2021 18:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:30:44.502840
- Title: A Fully Tensorized Recurrent Neural Network
- Title(参考訳): 完全テンソル化リカレントニューラルネットワーク
- Authors: Charles C. Onu, Jacob E. Miller, Doina Precup
- Abstract要約: 重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
- 参考スコア(独自算出の注目度): 48.50376453324581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) are powerful tools for sequential modeling,
but typically require significant overparameterization and regularization to
achieve optimal performance. This leads to difficulties in the deployment of
large RNNs in resource-limited settings, while also introducing complications
in hyperparameter selection and training. To address these issues, we introduce
a "fully tensorized" RNN architecture which jointly encodes the separate weight
matrices within each recurrent cell using a lightweight tensor-train (TT)
factorization. This approach represents a novel form of weight sharing which
reduces model size by several orders of magnitude, while still maintaining
similar or better performance compared to standard RNNs. Experiments on image
classification and speaker verification tasks demonstrate further benefits for
reducing inference times and stabilizing model training and hyperparameter
selection.
- Abstract(参考訳): リカレントニューラルネットワーク(recurrent neural network, rnn)はシーケンシャルモデリングのための強力なツールだが、一般的に最適な性能を得るためには、かなりのオーバーパラメータと正規化を必要とする。
これにより、リソース制限された設定での大規模なRNNの展開が困難になると同時に、ハイパーパラメータの選択とトレーニングの複雑さも引き起こされる。
これらの問題に対処するために、軽量なテンソルトレイン(TT)係数化を用いて、各リカレントセル内の個別の重み行列を共同符号化する「完全にテンソル化」されたRNNアーキテクチャを導入する。
このアプローチは、モデルサイズを数桁削減し、標準のRNNと同等あるいは優れた性能を維持しながら、新しいウェイトシェアリングの形式を示している。
画像分類と話者検証タスクの実験は、推論時間を短縮し、モデルのトレーニングとハイパーパラメータの選択を安定化するさらなる利点を示す。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Variational Tensor Neural Networks for Deep Learning [0.0]
深部ニューラルネットワーク(NN)へのテンソルネットワーク(TN)の統合を提案する。
これにより、大きなパラメータ空間上で効率的にトレーニングできるスケーラブルなテンソルニューラルネットワーク(TNN)アーキテクチャが実現される。
我々はTNNモデルを設計し、線形および非線形回帰、データ分類、MNIST手書き桁の画像認識のためのベンチマーク結果を提供することにより、提案手法の精度と効率を検証した。
論文 参考訳(メタデータ) (2022-11-26T20:24:36Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Reverse engineering recurrent neural networks with Jacobian switching
linear dynamical systems [24.0378100479104]
リカレントニューラルネットワーク(RNN)は時系列データを処理する強力なモデルである。
トレーニングされたRNNをその固定点を中心に線形化することでリバースエンジニアリングするフレームワークは洞察を与えてきたが、アプローチには大きな課題がある。
本稿では,新しい線形力学系 (SLDS) の定式化によるRNNの協調学習により,これらの制約を克服する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-11-01T20:49:30Z) - Block-term Tensor Neural Networks [29.442026567710435]
ブロック終端テンソル層(BT層)は,CNNやRNNなどのニューラルネットワークモデルに容易に適用可能であることを示す。
CNNとRNNのBT層は、元のDNNの表現力を維持したり改善したりしながら、パラメータ数に対して非常に大きな圧縮比を達成することができる。
論文 参考訳(メタデータ) (2020-10-10T09:58:43Z) - Recurrent Graph Tensor Networks: A Low-Complexity Framework for
Modelling High-Dimensional Multi-Way Sequence [24.594587557319837]
我々は、リカレントニューラルネットワーク(RNN)における隠れ状態のモデリングを近似するグラフフィルタフレームワークを開発する。
提案するフレームワークは、複数のマルチウェイシーケンスモデリングタスクを通じて検証され、従来のRNNに対してベンチマークされる。
提案したRGTNは,標準RNNよりも優れるだけでなく,従来のRNNと関連する次元の曲線を緩和できることを示す。
論文 参考訳(メタデータ) (2020-09-18T10:13:36Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。