論文の概要: Receptive Field Broadening and Boosting for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2110.07859v1
- Date: Fri, 15 Oct 2021 05:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 03:21:24.113668
- Title: Receptive Field Broadening and Boosting for Salient Object Detection
- Title(参考訳): サルエント物体検出のための受容場拡大とブースティング
- Authors: Mingcan Ma and Changqun Xia and Chenxi Xie and Xiaowu Chen and Jia Li
- Abstract要約: 本稿では,局所的な詳細情報とグローバルな意味情報を同時に効率的に拡張するためのトランスフォーマーとCNNに基づく双方向ネットワークを提案する。
MHB(Multi-Head Boosting)戦略は、異なるネットワークブランチの特異性を高めるために提案される。
アテンション・フィーチャー・フュージョン・モジュール (AF) は2種類の特徴をそれぞれの特性に応じて融合するために提案される。
- 参考スコア(独自算出の注目度): 25.839418119420447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Salient object detection requires a comprehensive and scalable receptive
field to locate the visually significant objects in the image. Recently, the
emergence of visual transformers and multi-branch modules has significantly
enhanced the ability of neural networks to perceive objects at different
scales. However, compared to the traditional backbone, the calculation process
of transformers is time-consuming. Moreover, different branches of the
multi-branch modules could cause the same error back propagation in each
training iteration, which is not conducive to extracting discriminative
features. To solve these problems, we propose a bilateral network based on
transformer and CNN to efficiently broaden local details and global semantic
information simultaneously. Besides, a Multi-Head Boosting (MHB) strategy is
proposed to enhance the specificity of different network branches. By
calculating the errors of different prediction heads, each branch can
separately pay more attention to the pixels that other branches predict
incorrectly. Moreover, Unlike multi-path parallel training, MHB randomly
selects one branch each time for gradient back propagation in a boosting way.
Additionally, an Attention Feature Fusion Module (AF) is proposed to fuse two
types of features according to respective characteristics. Comprehensive
experiments on five benchmark datasets demonstrate that the proposed method can
achieve a significant performance improvement compared with the
state-of-the-art methods.
- Abstract(参考訳): 画像内の視覚的に重要なオブジェクトを見つけるには、包括的でスケーラブルな受容フィールドが必要である。
近年、視覚変換器やマルチブランチモジュールの出現は、異なるスケールで物体を知覚するニューラルネットワークの能力を大幅に向上させた。
しかし、従来のバックボーンと比較して、トランスフォーマーの計算プロセスは時間がかかる。
さらに、マルチブランチモジュールの異なるブランチは、各トレーニングイテレーションで同じエラーバック伝搬を引き起こす可能性がある。
これらの問題を解決するために、トランスフォーマーとCNNに基づく双方向ネットワークを提案し、局所的な詳細情報とグローバルな意味情報を同時に効率的に拡張する。
さらに、異なるネットワークブランチの特異性を高めるために、マルチヘッドブースティング(MHB)戦略を提案する。
異なる予測ヘッドの誤差を計算することで、各ブランチは別々に他のブランチが誤って予測するピクセルに注意を払うことができる。
さらに、マルチパス並列トレーニングとは異なり、mhbは、勾配バック伝播のために各時間に1つのブランチをランダムに選択する。
さらに,注意機能融合モジュール(af)を提案し,それぞれの特性に応じて2種類の特徴を融合させる。
5つのベンチマークデータセットに関する包括的実験により,提案手法は最先端手法に比べて大幅に性能が向上することが示された。
関連論文リスト
- Unsupervised convolutional neural network fusion approach for change
detection in remote sensing images [1.892026266421264]
我々は、変化検出のための全く教師なし浅層畳み込みニューラルネットワーク(USCNN)融合アプローチを導入する。
我々のモデルには3つの特徴がある: トレーニングプロセス全体は教師なしで行われ、ネットワークアーキテクチャは浅く、目的関数はスパースである。
4つの実リモートセンシングデータセットの実験結果から,提案手法の有効性と有効性が確認された。
論文 参考訳(メタデータ) (2023-11-07T03:10:17Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Few-Shot Object Detection with Fully Cross-Transformer [35.49840687007507]
Few-shot Object Detection (FSOD) は、ごく少数のトレーニング例を用いて、新しいオブジェクトを検出することを目的としている。
本稿では,機能バックボーンと検出ヘッドの両方にクロストランスフォーマーを組み込むことにより,FSODのための新しいFCTモデルを提案する。
本モデルでは,複数レベルのインタラクションを導入することにより,2つのブランチ間の数ショットの類似性学習を改善することができる。
論文 参考訳(メタデータ) (2022-03-28T18:28:51Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。