論文の概要: a novel attention-based network for fast salient object detection
- arxiv url: http://arxiv.org/abs/2112.10481v1
- Date: Mon, 20 Dec 2021 12:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:24:46.483594
- Title: a novel attention-based network for fast salient object detection
- Title(参考訳): 注目に基づく高速な物体検出のための新しいネットワーク
- Authors: Bin Zhang, Yang Wu, Xiaojing Zhang and Ming Ma
- Abstract要約: 現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
- 参考スコア(独自算出の注目度): 14.246237737452105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current salient object detection network, the most popular method is
using U-shape structure. However, the massive number of parameters leads to
more consumption of computing and storage resources which are not feasible to
deploy on the limited memory device. Some others shallow layer network will not
maintain the same accuracy compared with U-shape structure and the deep network
structure with more parameters will not converge to a global minimum loss with
great speed. To overcome all of these disadvantages, we proposed a new deep
convolution network architecture with three contributions: (1) using smaller
convolution neural networks (CNNs) to compress the model in our improved
salient object features compression and reinforcement extraction module
(ISFCREM) to reduce parameters of the model. (2) introducing channel attention
mechanism in ISFCREM to weigh different channels for improving the ability of
feature representation. (3) applying a new optimizer to accumulate the
long-term gradient information during training to adaptively tune the learning
rate. The results demonstrate that the proposed method can compress the model
to 1/3 of the original size nearly without losing the accuracy and converging
faster and more smoothly on six widely used datasets of salient object
detection compared with the others models. Our code is published in
https://gitee.com/binzhangbinzhangbin/code-a-novel-attention-based-network-for-fast-salient-object-d etection.git
- Abstract(参考訳): 現在のsalient object detection networkでは、最も一般的な方法はu字型構造である。
しかし、大量のパラメータは、限られたメモリデバイスにデプロイできないコンピューティングとストレージリソースの消費を増加させる。
他の浅い層ネットワークはu字型構造と同等の精度を保たず、より多くのパラメータを持つディープネットワーク構造は大きな速度でグローバル最小損失に収束しない。
これらの欠点を克服するために,我々は,(1)小型畳み込みニューラルネットワーク(cnns)を用いて,改良したsalient object features compression and reinforcement extraction module(isfcrem)でモデルを圧縮し,モデルのパラメータを削減した,新たな深層畳み込みネットワークアーキテクチャを提案する。
2) ISFCREMにチャネルアテンション機構を導入し,特徴表現能力を向上させるために異なるチャネルを重み付けする。
3)学習中の長期勾配情報を蓄積して学習率を適応的に調整する新しいオプティマイザの適用。
その結果, 提案手法は, 精度を損なうことなく元の3分の1まで圧縮でき, 他のモデルと比較して, 広く使用されている6つのデータ集合上でより高速かつスムーズに収束できることがわかった。
私たちのコードはhttps://gitee.com/binzhangbinzhangbin/code-a-novel-attention-based-network-for-fast-salient-object-d etection.gitで公開しています。
関連論文リスト
- MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - AGSFCOS: Based on attention mechanism and Scale-Equalizing pyramid
network of object detection [10.824032219531095]
現在のCOCOデータセットの一般的な検出モデルと比較すると,精度はある程度向上している。
我々の最適モデルはResNet50の背景で39.5%のCOCO APが得られる。
論文 参考訳(メタデータ) (2021-05-20T08:41:02Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z) - Ensembled sparse-input hierarchical networks for high-dimensional
datasets [8.629912408966145]
サンプルサイズが小さい環境では,高密度ニューラルネットワークが実用的なデータ解析ツールであることを示す。
提案手法は,L1-ペナルティパラメータを2つだけ調整することで,ネットワーク構造を適切に調整する。
EASIER-netは、異なるサイズの実世界のデータセットのコレクションにおいて、データ適応方式でネットワークアーキテクチャを選択し、平均的なオフザシェルフ手法よりも高い予測精度を達成した。
論文 参考訳(メタデータ) (2020-05-11T02:08:53Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。