論文の概要: Dynamically pruning segformer for efficient semantic segmentation
- arxiv url: http://arxiv.org/abs/2111.09499v1
- Date: Thu, 18 Nov 2021 03:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:56:16.240371
- Title: Dynamically pruning segformer for efficient semantic segmentation
- Title(参考訳): 効率的な意味セグメンテーションのための動的pruning segformer
- Authors: Haoli Bai, Hongda Mao, Dinesh Nair
- Abstract要約: 効率的なセマンティックセグメンテーションのための軽量セグメンテーションセグメンテーションを設計する。
本研究は,SegFormer層内のニューロンが異なる画像間で大きなばらつきを示すという観測に基づいて,動的ゲート線形層を提案する。
また,2段階の知識蒸留を導入し,原教師内の知識を刈り取られた学生ネットワークに伝達する。
- 参考スコア(独自算出の注目度): 8.29672153078638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the successful Transformer-based models in computer vision tasks,
SegFormer demonstrates superior performance in semantic segmentation.
Nevertheless, the high computational cost greatly challenges the deployment of
SegFormer on edge devices. In this paper, we seek to design a lightweight
SegFormer for efficient semantic segmentation. Based on the observation that
neurons in SegFormer layers exhibit large variances across different images, we
propose a dynamic gated linear layer, which prunes the most uninformative set
of neurons based on the input instance. To improve the dynamically pruned
SegFormer, we also introduce two-stage knowledge distillation to transfer the
knowledge within the original teacher to the pruned student network.
Experimental results show that our method can significantly reduce the
computation overhead of SegFormer without an apparent performance drop. For
instance, we can achieve 36.9% mIoU with only 3.3G FLOPs on ADE20K, saving more
than 60% computation with the drop of only 0.5% in mIoU
- Abstract(参考訳): コンピュータビジョンタスクにおけるトランスフォーマティブベースモデルの成功例として、segformerはセマンティックセグメンテーションにおいて優れた性能を示している。
それでも、高い計算コストは、エッジデバイスへのSegFormerのデプロイに大きく挑戦する。
本稿では,効率的なセマンティクスセグメンテーションのための軽量セグフォーマの設計を試みる。
segformer層のニューロンが、異なる画像にまたがって大きなばらつきを示すという観測に基づいて、入力インスタンスに基づいて最も不規則なニューロンの集合をプルーピングする動的ゲート線形層を提案する。
動的に刈り取ったsegformerを改善するために,原教師の知識を刈り取った学生ネットワークに移すために,二段階の知識蒸留を導入する。
実験の結果,本手法はsegformerの性能低下を伴わずに計算オーバーヘッドを大幅に削減できることがわかった。
例えば、ADE20K上では3.3GのFLOPで36.9%のmIoUを達成でき、mIoUの0.5%の低下で60%以上の計算を節約できる。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation [40.0506169981233]
我々は,小ショット3D,Seg-NN,およびそのパラメトリック変種であるSeg-PNの非パラメトリックネットワークを提案する。
Seg-PNは手作りフィルタで高密度表現を抽出し、既存のパラメトリックモデルに匹敵する性能を達成する。
実験により、Seg-PNは、S3DISデータセットとScanNetデータセットにおいて、従来の最先端手法を+4.19%、+7.71% mIoUで上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T12:09:36Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。