論文の概要: Ventral-Dorsal Neural Networks: Object Detection via Selective Attention
- arxiv url: http://arxiv.org/abs/2005.09727v1
- Date: Fri, 15 May 2020 23:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:01:24.526322
- Title: Ventral-Dorsal Neural Networks: Object Detection via Selective Attention
- Title(参考訳): 垂直方向ニューラルネットワーク:選択的注意による物体検出
- Authors: Mohammad K. Ebrahimpour, Jiayun Li, Yen-Yun Yu, Jackson L. Reese,
Azadeh Moghtaderi, Ming-Hsuan Yang, David C. Noelle
- Abstract要約: 我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 51.79577908317031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Convolutional Neural Networks (CNNs) have been repeatedly proven to
perform well on image classification tasks. Object detection methods, however,
are still in need of significant improvements. In this paper, we propose a new
framework called Ventral-Dorsal Networks (VDNets) which is inspired by the
structure of the human visual system. Roughly, the visual input signal is
analyzed along two separate neural streams, one in the temporal lobe and the
other in the parietal lobe. The coarse functional distinction between these
streams is between object recognition -- the "what" of the signal -- and
extracting location related information -- the "where" of the signal. The
ventral pathway from primary visual cortex, entering the temporal lobe, is
dominated by "what" information, while the dorsal pathway, into the parietal
lobe, is dominated by "where" information. Inspired by this structure, we
propose the integration of a "Ventral Network" and a "Dorsal Network", which
are complementary. Information about object identity can guide localization,
and location information can guide attention to relevant image regions,
improving object recognition. This new dual network framework sharpens the
focus of object detection. Our experimental results reveal that the proposed
method outperforms state-of-the-art object detection approaches on PASCAL VOC
2007 by 8% (mAP) and PASCAL VOC 2012 by 3% (mAP). Moreover, a comparison of
techniques on Yearbook images displays substantial qualitative and quantitative
benefits of VDNet.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(CNN)は、画像分類タスクでよく機能することが繰り返し証明されている。
しかし、オブジェクト検出方法はまだ大幅に改善される必要がある。
本稿では,人間の視覚システムの構造に触発されたVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
概して、視覚入力信号は、側頭葉と頭頂葉の2つの別々の神経ストリームに沿って分析される。
これらのストリーム間の粗い機能的区別は、信号の「何」である物体認識と、信号の「どこで」である位置関連情報を抽出することである。
側頭葉に入る一次視覚野からの腹側路は"what"情報で支配され、後頭葉に入る背側経路は"where"情報で支配される。
この構造に着想を得て,補完的な "Ventral Network" と "Dorsal Network" の統合を提案する。
オブジェクトのアイデンティティに関する情報はローカライゼーションのガイドとなり、位置情報は関連する画像領域への注意を誘導し、オブジェクト認識を改善する。
この新しいデュアルネットワークフレームワークは、オブジェクト検出の焦点を絞る。
実験の結果,提案手法はPASCAL VOC 2007における最先端物体検出手法を8%(mAP),PASCAL VOC 2012では3%(mAP)より優れていた。
さらに、年鑑画像の比較では、VDNetの質的かつ定量的な利点が示される。
関連論文リスト
- Unleashing the Power of Depth and Pose Estimation Neural Networks by
Designing Compatible Endoscopic Images [12.412060445862842]
内視鏡画像の特性を詳細に解析し、画像とニューラルネットワークの互換性を改善する。
まず,完全な画像情報の代わりに部分的な画像情報を入力するMask Image Modelling (MIM) モジュールを導入する。
第2に、画像とニューラルネットワークの互換性を明確に向上させるために、内視鏡画像を強化する軽量ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:19:38Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - Saccade Mechanisms for Image Classification, Object Detection and
Tracking [12.751552698602744]
生体視覚からのササード機構を用いて、ディープニューラルネットワークを分類や物体検出の問題をより効率的にする方法について検討する。
提案手法は、注意駆動型視覚処理とササードのアイデアに基づいており、注意に影響された眼球運動のミニチュア化を図っている。
論文 参考訳(メタデータ) (2022-06-10T13:50:34Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Network Comparison Study of Deep Activation Feature Discriminability
with Novel Objects [0.5076419064097732]
最先端のコンピュータビジョンアルゴリズムは、Deep Neural Networks(DNN)を特徴抽出に取り入れ、Deep Convolutional Activation Features(DeCAF)を作成する。
本研究では、6つの主要な視覚認識DNNアーキテクチャのDeCAF空間に符号化された新しい物体の視覚的外観の一般的な識別可能性について分析する。
論文 参考訳(メタデータ) (2022-02-08T07:40:53Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - WW-Nets: Dual Neural Networks for Object Detection [48.67090730174743]
ネットワーク接続重みの暗黙的なオブジェクト位置知識を用いて、オブジェクト検出タスクにおける選択的注意を誘導する、新しいディープ畳み込みニューラルネットワークフレームワークを提案する。
我々のアプローチはWhat-Where Nets (WW-Nets)と呼ばれ、人間の視覚経路の構造にインスパイアされている。
論文 参考訳(メタデータ) (2020-05-15T21:16:22Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。