論文の概要: WW-Nets: Dual Neural Networks for Object Detection
- arxiv url: http://arxiv.org/abs/2005.07787v1
- Date: Fri, 15 May 2020 21:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:02:04.337636
- Title: WW-Nets: Dual Neural Networks for Object Detection
- Title(参考訳): WW-Nets:オブジェクト検出のためのデュアルニューラルネットワーク
- Authors: Mohammad K. Ebrahimpour, J. Ben Falandays, Samuel Spevack, Ming-Hsuan
Yang, and David C. Noelle
- Abstract要約: ネットワーク接続重みの暗黙的なオブジェクト位置知識を用いて、オブジェクト検出タスクにおける選択的注意を誘導する、新しいディープ畳み込みニューラルネットワークフレームワークを提案する。
我々のアプローチはWhat-Where Nets (WW-Nets)と呼ばれ、人間の視覚経路の構造にインスパイアされている。
- 参考スコア(独自算出の注目度): 48.67090730174743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new deep convolutional neural network framework that uses object
location knowledge implicit in network connection weights to guide selective
attention in object detection tasks. Our approach is called What-Where Nets
(WW-Nets), and it is inspired by the structure of human visual pathways. In the
brain, vision incorporates two separate streams, one in the temporal lobe and
the other in the parietal lobe, called the ventral stream and the dorsal
stream, respectively. The ventral pathway from primary visual cortex is
dominated by "what" information, while the dorsal pathway is dominated by
"where" information. Inspired by this structure, we have proposed an object
detection framework involving the integration of a "What Network" and a "Where
Network". The aim of the What Network is to provide selective attention to the
relevant parts of the input image. The Where Network uses this information to
locate and classify objects of interest. In this paper, we compare this
approach to state-of-the-art algorithms on the PASCAL VOC 2007 and 2012 and
COCO object detection challenge datasets. Also, we compare out approach to
human "ground-truth" attention. We report the results of an eye-tracking
experiment on human subjects using images from PASCAL VOC 2007, and we
demonstrate interesting relationships between human overt attention and
information processing in our WW-Nets. Finally, we provide evidence that our
proposed method performs favorably in comparison to other object detection
approaches, often by a large margin. The code and the eye-tracking ground-truth
dataset can be found at: https://github.com/mkebrahimpour.
- Abstract(参考訳): ネットワーク接続重みの暗黙的なオブジェクト位置知識を用いて、オブジェクト検出タスクにおける選択的注意を導く、新しいディープ畳み込みニューラルネットワークフレームワークを提案する。
我々のアプローチはWhat-Where Nets (WW-Nets)と呼ばれ、人間の視覚経路の構造にインスパイアされている。
脳では、視覚には側頭葉と頭頂葉の2つの別々の流れ、それぞれ腹側の流れと背側の流れが組み込まれている。
一次視覚野からの腹側経路は"what"情報で支配され、背側経路は"where"情報で支配される。
この構造にインスパイアされた我々は、"What Network"と"Where Network"を統合したオブジェクト検出フレームワークを提案しました。
whatネットワークの目的は、入力画像の関連部分に選択的に注意を向けることである。
Where Networkは、この情報を使って関心のあるオブジェクトを特定し分類する。
本稿では,本手法をpascal voc 2007および2012およびcoco object detection challengeデータセットにおける最先端アルゴリズムと比較する。
また,人間の「地道」に対するアプローチの比較を行った。
PASCAL VOC 2007の画像を用いた視線追跡実験の結果を報告するとともに,我々のWW-Netsにおける人間の注意と情報処理の興味深い関係について述べる。
最後に,提案手法が他の物体検出手法と比較して,大きなマージンで良好に動作することを示す。
コードと視線追跡地上データデータセットは、https://github.com/mkebrahimpour.com/で確認できる。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - GTNet:Guided Transformer Network for Detecting Human-Object Interactions [10.809778265707916]
人-物間相互作用(Human-object Interaction、HOI)検出タスクは、人間を局所化し、対象を局所化し、各人-物間の相互作用を予測する。
HOIを検出するためには,相対的な空間構成やオブジェクトの意味論を利用して,画像の空間領域の空間領域を見つけることが重要である。
この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。
論文 参考訳(メタデータ) (2021-08-02T02:06:33Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - SpotNet: Self-Attention Multi-Task Network for Object Detection [11.444576186559487]
我々は,背景サブトラクションや光フローを用いて,半教師付き方式で前景/後景セグメンテーションラベルを作成する。
ネットワーク内のセグメンテーションマップを自己認識機構として使用して,境界ボックスの生成に使用する特徴マップを重み付けする。
この手法を用いることで,2つの交通監視データセットにおいて,重要なmAP改善が得られることを示す。
論文 参考訳(メタデータ) (2020-02-13T14:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。