論文の概要: Salient Object Detection via Dynamic Scale Routing
- arxiv url: http://arxiv.org/abs/2210.13821v1
- Date: Tue, 25 Oct 2022 08:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:56:15.007607
- Title: Salient Object Detection via Dynamic Scale Routing
- Title(参考訳): 動的スケールルーティングによる局所物体検出
- Authors: Zhenyu Wu, Shuai Li, Chenglizhao Chen, Hong Qin, Aimin Hao
- Abstract要約: 本稿では,「動的」なスケールルーティング(新しいアイデアとして)について紹介する。
結果として、既存の機能のバックボーンに直接適合するジェネリックなプラグインが生まれます。
DPConvベースのエンコーダを最適に適合させるために,自己適応型双方向デコーダの設計を提案する。
- 参考スコア(独自算出の注目度): 62.26677215668959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research advances in salient object detection (SOD) could largely be
attributed to ever-stronger multi-scale feature representation empowered by the
deep learning technologies. The existing SOD deep models extract multi-scale
features via the off-the-shelf encoders and combine them smartly via various
delicate decoders. However, the kernel sizes in this commonly-used thread are
usually "fixed". In our new experiments, we have observed that kernels of small
size are preferable in scenarios containing tiny salient objects. In contrast,
large kernel sizes could perform better for images with large salient objects.
Inspired by this observation, we advocate the "dynamic" scale routing (as a
brand-new idea) in this paper. It will result in a generic plug-in that could
directly fit the existing feature backbone. This paper's key technical
innovations are two-fold. First, instead of using the vanilla convolution with
fixed kernel sizes for the encoder design, we propose the dynamic pyramid
convolution (DPConv), which dynamically selects the best-suited kernel sizes
w.r.t. the given input. Second, we provide a self-adaptive bidirectional
decoder design to accommodate the DPConv-based encoder best. The most
significant highlight is its capability of routing between feature scales and
their dynamic collection, making the inference process scale-aware. As a
result, this paper continues to enhance the current SOTA performance. Both the
code and dataset are publicly available at
https://github.com/wuzhenyubuaa/DPNet.
- Abstract(参考訳): 近年のサルエント物体検出 (SOD) の進歩は, 深層学習技術によって強化された, 絶え間ないマルチスケール特徴表現によるものである。
既存のSODディープモデルは、オフザシェルフエンコーダを介してマルチスケール機能を抽出し、様々な繊細なデコーダを介してスマートに組み合わせる。
しかし、このよく使われるスレッドのカーネルサイズは通常「修正」される。
我々の新しい実験では、小型のカーネルが小さなサルエントオブジェクトを含むシナリオで好まれることが観察された。
対照的に、大きなカーネルサイズは、大きなサルエントオブジェクトを持つ画像に対してよりよく機能する。
この観察に触発されて,本稿では(新しいアイデアとして)ダイナミックなスケールルーティングを提唱する。
その結果、既存の機能バックボーンに直接適合するジェネリックプラグインが生成される。
この論文の重要な技術的革新は2つある。
まず,固定化されたカーネルサイズを持つバニラ畳み込みを用いてエンコーダ設計を行う代わりに,与えられた入力に対して最適なカーネルサイズを動的に選択する動的ピラミッド畳み込み(DPConv)を提案する。
第2に,dpconvベースのエンコーダに最適な自己適応型双方向デコーダ設計を提案する。
最も重要な点は、機能スケールと動的コレクションをルーティングする能力であり、推論プロセスをスケール認識する。
その結果,本論文は現在のSOTA性能を向上し続けている。
コードとデータセットはhttps://github.com/wuzhenyubuaa/DPNetで公開されている。
関連論文リスト
- D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation [7.894630378784007]
動的大カーネル(DLK)および動的特徴融合(DFF)モジュールを提案する。
D-Netは、マルチスケールの大規模な受容場を効果的に利用し、グローバルな文脈情報を適応的に活用することができる。
論文 参考訳(メタデータ) (2024-03-15T20:49:43Z) - RecursiveDet: End-to-End Region-based Recursive Object Detection [19.799892459080485]
Sparse R-CNNのような領域ベースのオブジェクト検出器は通常、複数のカスケード境界ボックスデコードステージを持つ。
本稿では,復号段階の一般的な設定は実際には冗長であることを示す。
RecusiveDetは、より少ないモデルパラメータで明らかなパフォーマンス向上を達成することができる。
論文 参考訳(メタデータ) (2023-07-25T16:22:58Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Large Selective Kernel Network for Remote Sensing Object Detection [96.30162456627784]
我々はLarge Selective Kernel Network (LSKNet)を提案する。
LSKNetはその大きな空間受容場を調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。
2022年、グレーターベイエリア国際アルゴリズムコンペティションで2位となった。
論文 参考訳(メタデータ) (2023-03-16T02:00:37Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。