論文の概要: Improving Performance of Object Detection using the Mechanisms of Visual
Recognition in Humans
- arxiv url: http://arxiv.org/abs/2301.09667v1
- Date: Mon, 23 Jan 2023 19:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 15:06:29.500351
- Title: Improving Performance of Object Detection using the Mechanisms of Visual
Recognition in Humans
- Title(参考訳): 視覚認識機構を用いた物体検出の性能向上
- Authors: Amir Ghasemi, Fatemeh Mottaghian, Akram Bayat
- Abstract要約: 我々はまず、画像解像度の関数として最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を追跡する。
また、認識過程において、異なる空間周波数が物体に関する異なる情報を伝えることも示している。
単分解能ネットワークではなく,多分解能オブジェクト認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.4297070083645048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object recognition systems are usually trained and evaluated on high
resolution images. However, in real world applications, it is common that the
images have low resolutions or have small sizes. In this study, we first track
the performance of the state-of-the-art deep object recognition network,
Faster- RCNN, as a function of image resolution. The results reveals negative
effects of low resolution images on recognition performance. They also show
that different spatial frequencies convey different information about the
objects in recognition process. It means multi-resolution recognition system
can provides better insight into optimal selection of features that results in
better recognition of objects. This is similar to the mechanisms of the human
visual systems that are able to implement multi-scale representation of a
visual scene simultaneously. Then, we propose a multi-resolution object
recognition framework rather than a single-resolution network. The proposed
framework is evaluated on the PASCAL VOC2007 database. The experimental results
show the performance of our adapted multi-resolution Faster-RCNN framework
outperforms the single-resolution Faster-RCNN on input images with various
resolutions with an increase in the mean Average Precision (mAP) of 9.14%
across all resolutions and 1.2% on the full-spectrum images. Furthermore, the
proposed model yields robustness of the performance over a wide range of
spatial frequencies.
- Abstract(参考訳): オブジェクト認識システムは、通常、高解像度画像で訓練され、評価される。
しかし、現実世界のアプリケーションでは、画像の解像度が低く、サイズが小さいことが一般的である。
本研究では,画像分解能の関数として,最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を最初に追跡する。
その結果,低解像度画像が認識性能に与える影響が明らかになった。
また、異なる空間周波数が認識過程における物体に関する異なる情報を伝えることを示す。
マルチレゾリューション認識システムは、オブジェクトの認識をより良くする特徴の最適な選択について、より良い洞察を与えることができる。
これは、視覚シーンのマルチスケール表現を同時に実装できる人間の視覚システムのメカニズムと似ている。
そこで本研究では,単一解像度ネットワークではなく,マルチレゾリューションオブジェクト認識フレームワークを提案する。
提案手法はPASCAL VOC2007データベース上で評価される。
実験結果から, 入力画像上での高分解能高速RCNNフレームワークの性能は, 全解像度で平均平均精度(mAP)が9.14%, フルスペクトル画像で1.2%向上し, 単分解能高速RCNNよりも優れていた。
さらに,提案モデルにより,広い空間周波数における性能の堅牢性が得られる。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - ResFormer: Scaling ViTs with Multi-Resolution Training [100.01406895070693]
私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:57:20Z) - Super-Resolution and Image Re-projection for Iris Recognition [67.42500312968455]
異なるディープラーニングアプローチを用いた畳み込みニューラルネットワーク(CNN)は、解像度の低い画像から現実的なテクスチャときめ細かい詳細を復元しようとする。
本研究は、虹彩認識環境における虹彩超解法(SR)に対するこれらのアプローチの実現可能性について検討する。
その結果,CNNと画像再投影は,認識システムの精度向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T09:46:23Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Analysis and evaluation of Deep Learning based Super-Resolution
algorithms to improve performance in Low-Resolution Face Recognition [0.0]
超解像アルゴリズムは、関係する被験者の識別特性を回復することができる。
このプロジェクトは、顔の超解像のタスクのための異なるディープニューラルネットワークアーキテクチャを評価し、適応することを目的とした。
実験により、一般的なスーパーレゾリューションアーキテクチャは、高レゾリューション顔で訓練されたディープニューラルネットワークのフェイス検証性能を向上させることが判明した。
論文 参考訳(メタデータ) (2021-01-19T02:41:57Z) - High Quality Remote Sensing Image Super-Resolution Using Deep Memory
Connected Network [21.977093907114217]
単一画像の超解像は、ターゲット検出や画像分類といった多くの用途において重要である。
本稿では,畳み込みニューラルネットワークによる高画質超解像画像の再構成手法として,DeepMemory Connected Network (DMCN)を提案する。
論文 参考訳(メタデータ) (2020-10-01T15:06:02Z) - Multi-image Super Resolution of Remotely Sensed Images using Residual
Feature Attention Deep Neural Networks [1.3764085113103222]
本研究は,マルチイメージ超解像課題に効果的に取り組む新しい残像注意モデル(RAMS)を提案する。
本研究では,3次元畳み込みによる視覚特徴の注意機構を導入し,意識的なデータ融合と情報抽出を実現する。
我々の表現学習ネットワークは、冗長な低周波信号を流すためにネストした残差接続を広範囲に利用している。
論文 参考訳(メタデータ) (2020-07-06T22:54:02Z) - Feature Super-Resolution Based Facial Expression Recognition for
Multi-scale Low-Resolution Faces [7.634398926381845]
超解像法はしばしば低分解能画像の高精細化に使用されるが、FERタスクの性能は極低分解能画像では制限される。
本研究では,物体検出のための特徴的超解像法に触発されて,頑健な表情認識のための新たな生成逆ネットワークに基づく超解像法を提案する。
論文 参考訳(メタデータ) (2020-04-05T15:38:47Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。