論文の概要: Densely Nested Top-Down Flows for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2102.09133v1
- Date: Thu, 18 Feb 2021 03:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:20:55.180818
- Title: Densely Nested Top-Down Flows for Salient Object Detection
- Title(参考訳): サリエント物体検出のための密度ネストトップダウンフロー
- Authors: Chaowei Fang, Haibin Tian, Dingwen Zhang, Qiang Zhang, Jungong Han,
Junwei Han
- Abstract要約: 本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
- 参考スコア(独自算出の注目度): 137.74130900326833
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the goal of identifying pixel-wise salient object regions from each
input image, salient object detection (SOD) has been receiving great attention
in recent years. One kind of mainstream SOD methods is formed by a bottom-up
feature encoding procedure and a top-down information decoding procedure. While
numerous approaches have explored the bottom-up feature extraction for this
task, the design on top-down flows still remains under-studied. To this end,
this paper revisits the role of top-down modeling in salient object detection
and designs a novel densely nested top-down flows (DNTDF)-based framework. In
every stage of DNTDF, features from higher levels are read in via the
progressive compression shortcut paths (PCSP). The notable characteristics of
our proposed method are as follows. 1) The propagation of high-level features
which usually have relatively strong semantic information is enhanced in the
decoding procedure; 2) With the help of PCSP, the gradient vanishing issues
caused by non-linear operations in top-down information flows can be
alleviated; 3) Thanks to the full exploration of high-level features, the
decoding process of our method is relatively memory efficient compared against
those of existing methods. Integrating DNTDF with EfficientNet, we construct a
highly light-weighted SOD model, with very low computational complexity. To
demonstrate the effectiveness of the proposed model, comprehensive experiments
are conducted on six widely-used benchmark datasets. The comparisons to the
most state-of-the-art methods as well as the carefully-designed baseline models
verify our insights on the top-down flow modeling for SOD. The code of this
paper is available at https://github.com/new-stone-object/DNTD.
- Abstract(参考訳): 近年,各入力画像から画素単位の正当性物体領域を特定することを目的として,正当性物体検出(SOD)が注目されている。
主流sod手法の一つはボトムアップ特徴符号化手順とトップダウン情報復号手順によって形成される。
多くのアプローチがこのタスクのボトムアップ機能抽出を検討しているが、トップダウンフローの設計はまだ検討されていない。
そこで本稿では,高次物体検出におけるトップダウンモデリングの役割を再考し,高密度ネストトダウンフロー(DNTDF)に基づく新しいフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
提案手法の特徴は以下のとおりである。
1) 比較的強い意味情報を持つ高レベルの特徴の伝播は, 復号処理において強化され, 2) PCSPの助けを借りて, トップダウン情報フローにおける非線形操作によって生じる問題を解消し, 3) 高レベルの特徴の完全な探索により, 提案手法の復号処理は, 既存の手法と比較して比較的メモリ効率が良い。
DNTDFとEfficientNetを統合することで,計算量が非常に少ない軽量SODモデルを構築する。
提案手法の有効性を示すために,6つのベンチマークデータセットを用いた総合実験を行った。
最先端の手法と慎重に設計されたベースラインモデルの比較は、SODのトップダウンフローモデリングに関する当社の洞察を検証します。
この論文のコードはhttps://github.com/new-stone-object/DNTDで入手できる。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - CPDR: Towards Highly-Efficient Salient Object Detection via Crossed Post-decoder Refinement [3.5321836333805425]
我々は,アテンションダウンサンプルフュージョン (ADF) を導入し,アテンションアテンション・アテンション・アテンション・メカニズムと高レベル表現によるアテンション・マップを用いて低レベル特徴を洗練する。
また,ADFとAUFを併用したDACF(Dual Attention Cross Fusion)を提案し,性能を維持しながらパラメータ数を削減した。
5つのベンチマークデータセットの実験により、我々の手法は従来の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T05:41:05Z) - Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - EDN: Salient Object Detection via Extremely-Downsampled Network [66.38046176176017]
画像全体のグローバルビューを効果的に学ぶために、極端なダウンサンプリング技術を使用するExtremely-Downsampled Network(EDN)を紹介します。
実験は、ednがリアルタイム速度でsart性能を達成することを実証する。
論文 参考訳(メタデータ) (2020-12-24T04:23:48Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。