論文の概要: Bi-directional Masks for Efficient N:M Sparse Training
- arxiv url: http://arxiv.org/abs/2302.06058v1
- Date: Mon, 13 Feb 2023 02:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:51:51.784752
- Title: Bi-directional Masks for Efficient N:M Sparse Training
- Title(参考訳): 効率的なN:Mスパーストレーニングのための双方向マスク
- Authors: Yuxin Zhang, Yiting Luo, Mingbao Lin, Yunshan Zhong, Jingjing Xie, Fei
Chao, Rongrong Ji
- Abstract要約: 両方向マスク (Bi-Mask) の2つの中心的革新を取り入れた新しい手法を提案する。
前方と後方の重量空間を乱し、非常に密度の高い勾配を乗り越える。
トランスポーザブルマスクを応用し、後方加速を可能にする既存の一方向シナリオと比較して、我々のBi-Maskは性能がより優れていることを実験的に実証した。
- 参考スコア(独自算出の注目度): 64.9617631724811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on addressing the dense backward propagation issue for training
efficiency of N:M fine-grained sparsity that preserves at most N out of M
consecutive weights and achieves practical speedups supported by the N:M sparse
tensor core. Therefore, we present a novel method of Bi-directional Masks
(Bi-Mask) with its two central innovations in: 1) Separate sparse masks in the
two directions of forward and backward propagation to obtain training
acceleration. It disentangles the forward and backward weight sparsity and
overcomes the very dense gradient computation. 2) An efficient weight row
permutation method to maintain performance. It picks up the permutation
candidate with the most eligible N:M weight blocks in the backward to minimize
the gradient gap between traditional uni-directional masks and our
bi-directional masks. Compared with existing uni-directional scenario that
applies a transposable mask and enables backward acceleration, our Bi-Mask is
experimentally demonstrated to be more superior in performance. Also, our
Bi-Mask performs on par with or even better than methods that fail to achieve
backward acceleration. Project of this paper is available at
\url{https://github.com/zyxxmu/Bi-Mask}.
- Abstract(参考訳): 我々は,n:m スパーステンソルコアが支持する実用的な高速化を実現するために,m 連続重みのうち最大 n を保存できる n:m 細粒度スパルシティーのトレーニング効率に関する密集した後方伝播問題に対処することに注力する。
そこで,両方向マスク (Bi-Mask) の新たな手法について述べる。
1) 前向きと後向きの2方向のスパースマスクを分離してトレーニング加速度を得る。
これは前方と後方の重量空間を乱し、非常に密度の高い勾配計算を克服する。
2) 性能を維持するための効率的な重み列置換法。
従来の一方向マスクと我々の双方向マスクの勾配差を最小限に抑えるために、最も適度なN:M重みブロックを持つ置換候補を後方に拾い上げる。
トランスポーザブルマスクを応用し、後方加速を可能にする既存の一方向シナリオと比較して、我々のBi-Maskは性能がより優れていることを実験的に実証した。
また、私たちのBi-Maskは、後方加速度の達成に失敗するメソッドと同等かそれ以上に機能します。
この論文のプロジェクトは \url{https://github.com/zyxxmu/bi-mask} で入手できる。
関連論文リスト
- Efficiently Dispatching Flash Attention For Partially Filled Attention Masks [29.36452085947087]
トランスフォーマーは様々な用途で広く使われており、その多くがスパースまたは部分的に満たされた注意行列である。
我々はBinary Block Maskingを紹介した。これは非常に効率的な修正であり、マスクを意識することでFlashの注意を高める。
実世界のシナリオから得られたアテンションマスクの実験は、9倍のランタイム改善を示す。
論文 参考訳(メタデータ) (2024-09-23T15:11:07Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Non-Iterative Scribble-Supervised Learning with Pacing Pseudo-Masks for
Medical Image Segmentation [13.940364677162968]
Scribble-supervised Medical Image segmentationはスパースマスクの制限に対処する。
そこで我々は,PacingPseudoという,異質な擬似マスクのストリームが整合性学習を通じてネットワークを教える非定性的手法を提案する。
提案したPacingPseudoの有効性は、3つの公開医療画像データセットで検証されている。
論文 参考訳(メタデータ) (2022-10-20T01:57:44Z) - Optimizing Gradient-driven Criteria in Network Sparsity: Gradient is All
You Need [74.58939318994746]
勾配駆動のスパーシリティは、ネットワークの複雑さを減らすために使用される。
ウェイト独立は、ウェイトが相互に影響を受けているという事実とは対照的である。
本稿では、この独立パラドックスを解くことにより、勾配駆動空間(OptG)をさらに最適化することを提案する。
論文 参考訳(メタデータ) (2022-01-30T14:15:49Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Accelerated Sparse Neural Training: A Provable and Efficient Method to
Find N:M Transposable Masks [28.498176073737422]
最近、研究者はN:M$のきめ細かいブロック空間マスクを使用してディープニューラルネットワーク重み(DNN)を刈り取ることを提案した。
前方と後方の両方に同じマスクを使用できる新しいトランスポジブル細粒スパーシティマスクを提案します。
実験では,視覚モデルと言語モデルに対する精度低下を伴わない2倍の速度アップを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:44:16Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。