論文の概要: Entropy-Based Feature Extraction For Real-Time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2207.03233v1
- Date: Thu, 7 Jul 2022 11:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:51:16.103916
- Title: Entropy-Based Feature Extraction For Real-Time Semantic Segmentation
- Title(参考訳): リアルタイム意味セグメンテーションのためのエントロピーに基づく特徴抽出
- Authors: Lusine Abrahamyan and Nikos Deligiannis
- Abstract要約: 本稿では、リソース制約付きセマンティックセグメンテーションのための効率的なパッチベースの計算モジュール、Entropy-based Patch (EPE) モジュールを提案する。
EPEモジュールは3つの軽量完全畳み込みエンコーダで構成され、それぞれがエントロピーの異なる画像パッチから特徴を抽出する。
実験により、EPEは計算コストをわずかに増加させ、既存のリアルタイムセマンティックセグメンテーションモデルの性能を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 17.594868476162745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an efficient patch-based computational module, coined
Entropy-based Patch Encoder (EPE) module, for resource-constrained semantic
segmentation. The EPE module consists of three lightweight fully-convolutional
encoders, each extracting features from image patches with a different amount
of entropy. Patches with high entropy are being processed by the encoder with
the largest number of parameters, patches with moderate entropy are processed
by the encoder with a moderate number of parameters, and patches with low
entropy are processed by the smallest encoder. The intuition behind the module
is the following: as patches with high entropy contain more information, they
need an encoder with more parameters, unlike low entropy patches, which can be
processed using a small encoder. Consequently, processing part of the patches
via the smaller encoder can significantly reduce the computational cost of the
module. Experiments show that EPE can boost the performance of existing
real-time semantic segmentation models with a slight increase in the
computational cost. Specifically, EPE increases the mIOU performance of DFANet
A by 0.9% with only 1.2% increase in the number of parameters and the mIOU
performance of EDANet by 1% with 10% increase of the model parameters.
- Abstract(参考訳): 本稿では、リソース制約付きセマンティックセグメンテーションのための効率的なパッチベースの計算モジュール、Entropy-based Patch Encoder (EPE) モジュールを提案する。
EPEモジュールは3つの軽量完全畳み込みエンコーダで構成され、それぞれがエントロピーの異なる画像パッチから特徴を抽出する。
高エントロピーのパッチは最も多くのパラメータを持つエンコーダで処理され、中等エントロピーのパッチは適度な数のパラメータを持つエンコーダで処理され、低エントロピーのパッチは最小のエンコーダで処理される。
高いエントロピーを持つパッチにはより多くの情報が含まれているため、小さなエントロピーで処理可能な低エントロピーパッチとは異なり、より多くのパラメータを持つエンコーダが必要である。
これにより、より小さなエンコーダによるパッチ処理は、モジュールの計算コストを大幅に削減することができる。
実験により、EPEは計算コストをわずかに増加させ、既存のリアルタイムセマンティックセグメンテーションモデルの性能を向上させることができることが示された。
具体的には、DFANet AのmIOU性能が0.9%向上し、パラメータ数が1.2%増加し、EDANetのmIOU性能が1%向上し、モデルパラメータが10%増加した。
関連論文リスト
- Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Variator: Accelerating Pre-trained Models with Plug-and-Play Compression
Modules [111.98205411431402]
Variatorは、プラグアンドプレイ圧縮プラグインによる計算効率を向上させるパラメータ効率加速法である。
Variatorはパラメータを0.9%追加するだけで計算コストを53%削減でき、性能低下は2%未満である。
論文 参考訳(メタデータ) (2023-10-24T11:00:07Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Towards Deep and Efficient: A Deep Siamese Self-Attention Fully
Efficient Convolutional Network for Change Detection in VHR Images [28.36808011351123]
EffCDNetという非常に深く効率的なCDネットワークを提示する。
EffCDNetでは、ディープワイド畳み込みとチャネルシャッフル機構によるグループ畳み込みからなる効率的な畳み込みが導入された。
難易度の高い2つのCDデータセットにおいて、本手法は他のSOTA FCN法よりも優れている。
論文 参考訳(メタデータ) (2021-08-18T14:02:38Z) - EPSANet: An Efficient Pyramid Split Attention Block on Convolutional
Neural Network [41.994043409345956]
本研究では, ピラミッド分割注意(PSA)モジュールという, 軽量かつ効果的に注目する手法を提案する。
ResNetのボトルネックブロックにおける3x3畳み込みをPSAモジュールに置き換えることで、EPSA(Efficient Pyramid Split Attention)と呼ばれる新しい表現ブロックを得る。
EPSAブロックは、確立されたバックボーンネットワークにプラグイン・アンド・プレイコンポーネントとして簡単に追加でき、モデル性能の大幅な改善が達成できる。
論文 参考訳(メタデータ) (2021-05-30T07:26:41Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。