論文の概要: SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training
- arxiv url: http://arxiv.org/abs/2311.04828v1
- Date: Wed, 8 Nov 2023 16:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:13:47.772396
- Title: SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training
- Title(参考訳): SODAWideNet -- ImageNet事前トレーニングなしのアテンション拡張ワイドエンコーダデコーダネットワークによる有能なオブジェクト検出
- Authors: Rohit Venkata Sai Dulam and Chandra Kambhamettu
- Abstract要約: 我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
- 参考スコア(独自算出の注目度): 3.66237529322911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing a new Salient Object Detection (SOD) model involves selecting an
ImageNet pre-trained backbone and creating novel feature refinement modules to
use backbone features. However, adding new components to a pre-trained backbone
needs retraining the whole network on the ImageNet dataset, which requires
significant time. Hence, we explore developing a neural network from scratch
directly trained on SOD without ImageNet pre-training. Such a formulation
offers full autonomy to design task-specific components. To that end, we
propose SODAWideNet, an encoder-decoder-style network for Salient Object
Detection. We deviate from the commonly practiced paradigm of narrow and deep
convolutional models to a wide and shallow architecture, resulting in a
parameter-efficient deep neural network. To achieve a shallower network, we
increase the receptive field from the beginning of the network using a
combination of dilated convolutions and self-attention. Therefore, we propose
Multi Receptive Field Feature Aggregation Module (MRFFAM) that efficiently
obtains discriminative features from farther regions at higher resolutions
using dilated convolutions. Next, we propose Multi-Scale Attention (MSA), which
creates a feature pyramid and efficiently computes attention across multiple
resolutions to extract global features from larger feature maps. Finally, we
propose two variants, SODAWideNet-S (3.03M) and SODAWideNet (9.03M), that
achieve competitive performance against state-of-the-art models on five
datasets.
- Abstract(参考訳): 新しいSalient Object Detection(SOD)モデルの開発には、ImageNet事前訓練されたバックボーンを選択し、バックボーン機能を使用するための新しい機能改善モジュールを作成することが含まれる。
しかし、トレーニング済みのバックボーンに新しいコンポーネントを追加するには、ImageNetデータセットでネットワーク全体をトレーニングする必要がある。
したがって、ImageNet事前学習なしでSODで直接訓練されたスクラッチからニューラルネットワークを開発することを検討する。
このような定式化はタスク固有のコンポーネントを設計するための完全な自律性を提供します。
そこで本研究では,オブジェクト検出のためのエンコーダデコーダ型ネットワークである sodawidenet を提案する。
我々は、狭く深い畳み込みモデルという一般的なパラダイムから、広く浅いアーキテクチャへと逸脱し、パラメータ効率のよいディープニューラルネットワークを生み出した。
より浅いネットワークを実現するために,拡張畳み込みと自己認識の組み合わせを用いて,ネットワークの開始から受容野を増加させる。
そこで我々は, 拡張畳み込みを用いた高分解能で, 遠方領域からの識別特性を効率的に取得するMRFFAM(Multi Receptive Field Feature Aggregation Module)を提案する。
次に,マルチスケール注意(Multi-Scale Attention,MSA)を提案する。これは特徴ピラミッドを作成し,複数の解像度にまたがる注意を効率よく計算し,より大きな特徴マップからグローバルな特徴を抽出する。
最後に,5つのデータセット上の最先端モデルに対する競合性能を実現するため,SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種を提案する。
関連論文リスト
- SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - PointeNet: A Lightweight Framework for Effective and Efficient Point
Cloud Analysis [28.54939134635978]
PointeNetは、ポイントクラウド分析に特化したネットワークである。
本手法は,分類/分割ヘッドとシームレスに統合したり,市販の3Dオブジェクト検出ネットワークに埋め込んだりすることで,柔軟性を示す。
ModelNet40、ScanObjectNN、ShapeNet KITTI、およびシーンレベルのデータセットKITTIを含むオブジェクトレベルのデータセットの実験は、ポイントクラウド分析における最先端メソッドよりもPointeNetの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T03:34:48Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - An Efficient End-to-End 3D Model Reconstruction based on Neural
Architecture Search [5.913946292597174]
ニューラルアーキテクチャサーチ(NAS)とバイナリ分類を用いた効率的なモデル再構成手法を提案する。
本手法は,より少ないネットワークパラメータを用いて,再構成精度を著しく向上する。
論文 参考訳(メタデータ) (2022-02-27T08:53:43Z) - Recalibration of Neural Networks for Point Cloud Analysis [3.7814216736076434]
3Dポイントクラウドのためのディープニューラルネットワーク上での再校正モジュールを導入する。
提案モジュールを3次元ポイントクラウド解析のための3つの最先端ネットワークに組み込むことで,提案モジュールのメリットと汎用性を実証する。
第2の実験では,アルツハイマー病の診断における再校正ブロックの利点について検討した。
論文 参考訳(メタデータ) (2020-11-25T17:14:34Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - DRU-net: An Efficient Deep Convolutional Neural Network for Medical
Image Segmentation [2.3574651879602215]
残留ネットワーク(ResNet)と密結合ネットワーク(DenseNet)は、ディープ畳み込みニューラルネットワーク(DCNN)のトレーニング効率と性能を大幅に改善した。
両ネットワークの利点を考慮した効率的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-28T12:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。