論文の概要: U$^2$-Net: Going Deeper with Nested U-Structure for Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2005.09007v3
- Date: Tue, 8 Mar 2022 19:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:57:52.382624
- Title: U$^2$-Net: Going Deeper with Nested U-Structure for Salient Object
Detection
- Title(参考訳): u$^2$-net:salient object detectionのためのネスト型u-structure
- Authors: Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R.
Zaiane and Martin Jagersand
- Abstract要約: 我々は、単純だが強力な深層ネットワークアーキテクチャU$2$-Netを設計し、SOD(Healient Object Detection)を設計する。
U$2$-Netのアーキテクチャは、2レベルネストされたU構造です。
提案したアーキテクチャの2つのモデル、U$2$-Net (176.3 MB, 30 FPS on GTX 1080Ti GPU)とU$2$-Net$dagger$ (4.7 MB, 40 FPS)をインスタンス化する。
- 参考スコア(独自算出の注目度): 6.071985784990975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we design a simple yet powerful deep network architecture,
U$^2$-Net, for salient object detection (SOD). The architecture of our
U$^2$-Net is a two-level nested U-structure. The design has the following
advantages: (1) it is able to capture more contextual information from
different scales thanks to the mixture of receptive fields of different sizes
in our proposed ReSidual U-blocks (RSU), (2) it increases the depth of the
whole architecture without significantly increasing the computational cost
because of the pooling operations used in these RSU blocks. This architecture
enables us to train a deep network from scratch without using backbones from
image classification tasks. We instantiate two models of the proposed
architecture, U$^2$-Net (176.3 MB, 30 FPS on GTX 1080Ti GPU) and
U$^2$-Net$^{\dagger}$ (4.7 MB, 40 FPS), to facilitate the usage in different
environments. Both models achieve competitive performance on six SOD datasets.
The code is available: https://github.com/NathanUA/U-2-Net.
- Abstract(参考訳): 本稿では,有能なオブジェクト検出(SOD)のための,単純だが強力なディープネットワークアーキテクチャU$^2$-Netを設計する。
U$2$-Netのアーキテクチャは、2レベルネストされたU構造です。
提案手法は,提案するu-blocks (rsu) において,異なる大きさの受容場を混合することにより,異なるスケールからより多くのコンテキスト情報をキャプチャできる,(2)rsuブロックで使用されるプール操作により,計算コストを大幅に増加させることなく,アーキテクチャ全体の深さを増加させることができる,という利点がある。
このアーキテクチャにより、画像分類タスクのバックボーンを使わずに、深いネットワークをゼロからトレーニングすることができる。
提案アーキテクチャの2つのモデル、U$^2$-Net (176.3 MB, 30 FPS on GTX 1080Ti GPU)とU$^2$-Net$^{\dagger}$ (4.7 MB, 40 FPS)をインスタンス化し、異なる環境での使用を容易にする。
どちらのモデルも、6つのSODデータセットで競合性能を達成する。
コードはhttps://github.com/nathanua/u-2-net。
関連論文リスト
- (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - NASiam: Efficient Representation Learning using Neural Architecture
Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。
NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。
NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文 参考訳(メタデータ) (2023-01-31T19:48:37Z) - Neural Network Architecture Beyond Width and Depth [4.468952886990851]
本稿では,幅と深さを超えた高さという付加次元を導入することで,新しいニューラルネットワークアーキテクチャを提案する。
三次元構造を持つニューラルネットワークは、二次元構造を持つニューラルネットワークよりもはるかに表現力が高いことが示されている。
論文 参考訳(メタデータ) (2022-05-19T10:29:11Z) - $\ell_1$DecNet+: A new architecture framework by $\ell_1$ decomposition and iteration unfolding for sparse feature segmentation [4.150107303000611]
$ell_$DecNetは、$ell_$関連スパース正規化を組み込んだ変動分解モデルから派生した、展開されていないネットワークである。
我々は$ell_$DecNet+を開発し、 $ell_$DecNetと抽出されたスパース機能を操作するセグメンテーションモジュールからなる学習可能なアーキテクチャフレームワークを開発した。
医療用画像処理における網膜血管分割と,産業用異常識別における舗装き裂検出の2つの課題に対する $ell_$DecNet+ の有効性を検討した。
論文 参考訳(メタデータ) (2022-03-05T09:17:32Z) - Wise-SrNet: A Novel Architecture for Enhancing Image Classification by
Learning Spatial Resolution of Feature Maps [0.5892638927736115]
畳み込みニューラルネットワークの進歩による大きな課題の1つは、抽出した特徴マップを最終分類層に接続する方法である。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
奥行きの畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
論文 参考訳(メタデータ) (2021-04-26T00:37:11Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - Hierarchical Neural Architecture Search for Deep Stereo Matching [131.94481111956853]
本稿では, ディープステレオマッチングのための最初のエンドツーエンド階層型NASフレームワークを提案する。
我々のフレームワークは、タスク固有の人間の知識をニューラルアーキテクチャ検索フレームワークに組み込んでいる。
KITTI stereo 2012、2015、Middleburyベンチマークで1位、SceneFlowデータセットで1位にランクインしている。
論文 参考訳(メタデータ) (2020-10-26T11:57:37Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。