論文の概要: Tiled Squeeze-and-Excite: Channel Attention With Local Spatial Context
- arxiv url: http://arxiv.org/abs/2107.02145v1
- Date: Mon, 5 Jul 2021 17:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:13:52.267771
- Title: Tiled Squeeze-and-Excite: Channel Attention With Local Spatial Context
- Title(参考訳): Tiled Squeeze-and-Excite:局所的空間文脈によるチャネル注意
- Authors: Niv Vosco and Alon Shenkler and Mark Grobman
- Abstract要約: 本稿では,簡易かつ軽量なチャネルアテンション機構であるSEブロックについて検討する。
チャネル毎に複数のディスクリプタを使用するSEライクなブロックを構築するためのフレームワークであるTSE(tiled cash-and-excite)を提案する。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate the amount of spatial context required for
channel attention. To this end we study the popular squeeze-and-excite (SE)
block which is a simple and lightweight channel attention mechanism. SE blocks
and its numerous variants commonly use global average pooling (GAP) to create a
single descriptor for each channel. Here, we empirically analyze the amount of
spatial context needed for effective channel attention and find that limited
localcontext on the order of seven rows or columns of the original image is
sufficient to match the performance of global context. We propose tiled
squeeze-and-excite (TSE), which is a framework for building SE-like blocks that
employ several descriptors per channel, with each descriptor based on local
context only. We further show that TSE is a drop-in replacement for the SE
block and can be used in existing SE networks without re-training. This implies
that local context descriptors are similar both to each other and to the global
context descriptor. Finally, we show that TSE has important practical
implications for deployment of SE-networks to dataflow AI accelerators due to
their reduced pipeline buffering requirements. For example, using TSE reduces
the amount of activation pipeline buffering in EfficientDetD2 by 90% compared
to SE (from 50M to 4.77M) without loss of accuracy. Our code and pre-trained
models will be publicly available.
- Abstract(参考訳): 本稿では,チャネルアテンションに必要な空間コンテキストの量について検討する。
そこで本研究では,簡易かつ軽量なチャネルアテンション機構であるSEブロックについて検討する。
SEブロックとその多くの変種は、グローバル平均プール(GAP)を使用して、各チャネルに1つの記述子を作成する。
本稿では,実効的なチャンネル注目に必要な空間的コンテキストの量を実験的に分析し,原画像の7行または列の順序で制限されたローカルコンテキストが,グローバルコンテキストのパフォーマンスに適合するのに十分なものであることを示す。
本稿では,各ディスクリプタがローカルコンテキストのみに基づいて,複数のディスクリプタを使用するSEライクなブロックを構築するためのフレームワークであるTSEを提案する。
さらに、TSEはSEブロックのドロップイン置換であり、既存のSEネットワークで再トレーニングすることなく使用できることを示す。
これは、ローカルコンテキスト記述子とグローバルコンテキスト記述子の両方が似ていることを意味する。
最後に、TSEがSE-networksをデータフローAIアクセラレータにデプロイする上で、パイプラインバッファリングの要求が小さくなるため、重要な実践的意味を持つことを示す。
例えば、TSEを使用すると、EfficientDetD2の活性化パイプラインバッファリングの量は、精度を失うことなくSE(50Mから4.77M)と比較して90%削減される。
私たちのコードと事前訓練されたモデルは公開されます。
関連論文リスト
- Deep Spectral Improvement for Unsupervised Image Instance Segmentation [9.115508086522887]
本稿では,自己教師付きバックボーンから抽出した特徴マップのすべてのチャネルが,例えばセグメント化の目的のために十分な情報を含んでいるわけではないという事実に対処する。
ノイズチャンネルリダクション(NCR)とディバイジョンベースリダクション(DCR)の2つのチャネルリダクションモジュールを提案する。
NCRはノイズが少ないためエントロピーの低いチャネルを保持するが、DCRは効果的なインスタンスセグメンテーションのための十分な情報がないため、標準偏差の低いチャネルを保持する。
論文 参考訳(メタデータ) (2024-02-04T13:09:13Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Acoustic Scene Classification with Squeeze-Excitation Residual Networks [4.591851728010269]
残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
このような演算子を実装したブロックの振舞いは、ブロックへの入力に応じてニューラルネットワーク全体を変更することができる。
論文 参考訳(メタデータ) (2020-03-20T14:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。