論文の概要: Location-Sensitive Visual Recognition with Cross-IOU Loss
- arxiv url: http://arxiv.org/abs/2104.04899v1
- Date: Sun, 11 Apr 2021 02:17:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:14:19.612865
- Title: Location-Sensitive Visual Recognition with Cross-IOU Loss
- Title(参考訳): クロスIOU損失を用いた位置感性視覚認識
- Authors: Kaiwen Duan, Lingxi Xie, Honggang Qi, Song Bai, Qingming Huang and Qi
Tian
- Abstract要約: 本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
- 参考スコア(独自算出の注目度): 177.86369890708457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection, instance segmentation, and pose estimation are popular
visual recognition tasks which require localizing the object by internal or
boundary landmarks. This paper summarizes these tasks as location-sensitive
visual recognition and proposes a unified solution named location-sensitive
network (LSNet). Based on a deep neural network as the backbone, LSNet predicts
an anchor point and a set of landmarks which together define the shape of the
target object. The key to optimizing the LSNet lies in the ability of fitting
various scales, for which we design a novel loss function named cross-IOU loss
that computes the cross-IOU of each anchor point-landmark pair to approximate
the global IOU between the prediction and ground-truth. The flexibly located
and accurately predicted landmarks also enable LSNet to incorporate richer
contextual information for visual recognition. Evaluated on the MS-COCO
dataset, LSNet set the new state-of-the-art accuracy for anchor-free object
detection (a 53.5% box AP) and instance segmentation (a 40.2% mask AP), and
shows promising performance in detecting multi-scale human poses. Code is
available at https://github.com/Duankaiwen/LSNet
- Abstract(参考訳): オブジェクト検出、インスタンスセグメンテーション、ポーズ推定は、オブジェクトを内部または境界のランドマークでローカライズする必要がある一般的なビジュアル認識タスクである。
本稿では,これらの課題を位置センシティブな視覚認識として要約し,位置センシティブネットワーク(lsnet)という統一ソリューションを提案する。
深層ニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を定義するアンカーポイントとランドマークのセットを予測する。
LSNetの最適化の鍵となるのは,各アンカーポイントランドマークペアのクロスIOUを計算するクロスIOU損失と呼ばれる新しい損失関数を設計し,予測とグランドトラストのグローバルIOUを近似する,様々なスケールに適合する能力である。
柔軟に位置し、正確に予測されたランドマークにより、LSNetはよりリッチなコンテキスト情報を視覚認識に組み込むことができる。
MS-COCOデータセットに基づいてLSNetは、アンカーフリーなオブジェクト検出(53.5%のボックスAP)とインスタンスセグメンテーション(40.2%のマスクAP)のための新しい最先端の精度を設定し、マルチスケールの人間のポーズを検出する上で有望なパフォーマンスを示す。
コードはhttps://github.com/Duankaiwen/LSNetで入手できる。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - LSKNet: A Foundation Lightweight Backbone for Remote Sensing [78.29112381082243]
本稿では,軽量なLarge Selective Kernel Network (LSKNet) バックボーンを提案する。
LSKNetはその大きな空間受容場を調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。
我々の軽量LSKNetは、標準リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションベンチマークに基づいて、最先端のスコアを設定しています。
論文 参考訳(メタデータ) (2024-03-18T12:43:38Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Fast Camouflaged Object Detection via Edge-based Reversible
Re-calibration Network [17.538512222905087]
本稿では,ERRNetと呼ばれるエッジベースの可逆再校正ネットワークを提案する。
Selective Edge Aggregation(SEA)とReversible Re-calibration Unit(RRU)の2つの革新的な設計が特徴である。
実験の結果,ERRNetは3つのCODデータセットと5つの医用画像セグメンテーションデータセットで既存の最先端ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-11-05T02:03:54Z) - AdaCon: Adaptive Context-Aware Object Detection for Resource-Constrained
Embedded Devices [2.5345835184316536]
畳み込みニューラルネットワークは、オブジェクト検出タスクにおいて最先端の精度を達成する。
リソース制約のあるエッジデバイスへの展開に挑戦する計算とエネルギーの要求が大きい。
本稿では,物体検出モデルの効率を高めるために,異なる対象カテゴリが共同で発生する確率に関する事前知識を活用する。
COCOデータセットを用いた実験の結果, 適応物体検出モデルでは, エネルギー消費量が最大45%減少し, 遅延が最大27%減少し, 物体検出の平均精度(AP)が低下することがわかった。
論文 参考訳(メタデータ) (2021-08-16T01:21:55Z) - Decoupled Self Attention for Accurate One Stage Object Detection [4.791635488070342]
本稿では,1段階の物体検出モデルに対してデカップリング自己注意(DSA)モジュールを提案する。
DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。
論文 参考訳(メタデータ) (2020-12-14T15:19:30Z) - SOE-Net: A Self-Attention and Orientation Encoding Network for Point
Cloud based Place Recognition [50.9889997200743]
我々は、自己アテンション・指向性符号化ネットワーク(SOE-Net)を用いて、ポイントクラウドデータから位置認識する問題に取り組む。
SOE-Netは、ポイント間の関係を完全に探求し、長距離コンテキストをポイントワイドなローカル記述子に組み込む。
様々なベンチマークデータセットの実験では、現在の最先端アプローチよりも提案したネットワークの性能が優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T22:28:25Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。