論文の概要: On the Compression of Natural Language Models
- arxiv url: http://arxiv.org/abs/2112.11480v1
- Date: Mon, 13 Dec 2021 08:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 14:56:51.165016
- Title: On the Compression of Natural Language Models
- Title(参考訳): 自然言語モデルの圧縮について
- Authors: Saeed Damadi
- Abstract要約: 我々は、量子化、知識蒸留、プルーニングといった最先端の圧縮技術についてレビューする。
本研究の目的は、自然言語モデル(NLM)にそのような訓練可能なサブネットワークが存在するかどうかを評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are effective feature extractors but they are
prohibitively large for deployment scenarios. Due to the huge number of
parameters, interpretability of parameters in different layers is not
straight-forward. This is why neural networks are sometimes considered black
boxes. Although simpler models are easier to explain, finding them is not easy.
If found, a sparse network that can fit to a data from scratch would help to
interpret parameters of a neural network. To this end, lottery ticket
hypothesis states that typical dense neural networks contain a small sparse
sub-network that can be trained to a reach similar test accuracy in an equal
number of steps. The goal of this work is to assess whether such a trainable
subnetwork exists for natural language models (NLM)s. To achieve this goal we
will review state-of-the-art compression techniques such as quantization,
knowledge distillation, and pruning.
- Abstract(参考訳): ディープニューラルネットワークは効果的な機能抽出器だが、デプロイシナリオでは極めて大きい。
パラメータが多すぎるため、異なる層におけるパラメータの解釈性はストレートフォワードではない。
そのため、ニューラルネットワークは時にブラックボックスと見なされる。
単純なモデルは説明しやすいが、それを見つけるのは容易ではない。
もし見つかったら、スクラッチからデータに適合するスパースネットワークは、ニューラルネットワークのパラメータを解釈するのに役立ちます。
この目的のために、宝くじの仮説は、典型的な高密度ニューラルネットワークは、同じ数のステップで同様のテスト精度に達するように訓練できる小さなスパースサブネットワークを含むことを述べている。
この研究の目的は、自然言語モデル(NLM)にそのような訓練可能なサブネットワークが存在するかどうかを評価することである。
この目的を達成するために、量子化、知識蒸留、プルーニングといった最先端の圧縮技術についてレビューする。
関連論文リスト
- Residual Random Neural Networks [0.0]
ランダムな重みを持つ単層フィードフォワードニューラルネットワークは、ニューラルネットワークの文献の中で繰り返されるモチーフである。
隠れたニューロンの数がデータサンプルの次元と等しくない場合でも,優れた分類結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-25T22:00:11Z) - No Free Prune: Information-Theoretic Barriers to Pruning at Initialization [8.125999058340998]
arXiv:2105.12806のロバスト性法則を,通常のパラメータカウントを$p_texteff$に置き換えたスパースネットワークに拡張する。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。
論文 参考訳(メタデータ) (2024-02-02T01:13:16Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - The smooth output assumption, and why deep networks are better than wide
ones [0.0]
モデルがどのように一般化するかを予測する新しい尺度を提案する。
現実には、概念間の境界が一般に形骸化していないという事実に基づいている。
論文 参考訳(メタデータ) (2022-11-25T19:05:44Z) - Locally Sparse Networks for Interpretable Predictions [7.362415721170984]
本稿では,局所的な疎度をサンプル固有のゲーティング機構を用いて学習する,局所スパースニューラルネットワークのトレーニングフレームワークを提案する。
サンプル固有の間隔は、テキスト予測ネットワークで予測され、テキスト予測ネットワークとタンデムでトレーニングされる。
本手法は,1インスタンスあたりの機能が少ないターゲット関数の予測において,最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T15:46:50Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - Artificial Neural Networks generated by Low Discrepancy Sequences [59.51653996175648]
我々は、高密度ネットワークグラフ上のランダムウォーキングとして、人工ニューラルネットワークを生成する。
このようなネットワークはスクラッチからスパースを訓練することができ、高密度ネットワークをトレーニングし、その後圧縮する高価な手順を避けることができる。
我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。
論文 参考訳(メタデータ) (2021-03-05T08:45:43Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - On the distance between two neural networks and the stability of
learning [59.62047284234815]
本稿では, パラメータ距離と勾配分解を, 幅広い非線形構成関数のクラスに関連付ける。
この分析により、ニューラルネットワークの深い相対信頼と降下補題と呼ばれる新しい距離関数が導かれる。
論文 参考訳(メタデータ) (2020-02-09T19:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。