論文の概要: Analysis of Visual Reasoning on One-Stage Object Detection
- arxiv url: http://arxiv.org/abs/2202.13115v1
- Date: Sat, 26 Feb 2022 11:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:52:13.186955
- Title: Analysis of Visual Reasoning on One-Stage Object Detection
- Title(参考訳): 一段階物体検出における視覚的推論の解析
- Authors: Tolga Aksoy, Ugur Halici
- Abstract要約: 対象物の関係を考慮せずに、各画像領域を別々に扱うことで、一段物検出器を限定する。
本稿では,一段階物体検出における推論機能の利用について分析する。
YOLOv3-Reasoner2モデルは、推論層の機能を空間的に意味的に拡張し、元の畳み込み機能と融合してパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art one-stage object detectors are limited by treating
each image region separately without considering possible relations of the
objects. This causes dependency solely on high-quality convolutional feature
representations for detecting objects successfully. However, this may not be
possible sometimes due to some challenging conditions. In this paper, the usage
of reasoning features on one-stage object detection is analyzed. We attempted
different architectures that reason the relations of the image regions by using
self-attention. YOLOv3-Reasoner2 model spatially and semantically enhances
features in the reasoning layer and fuses them with the original convolutional
features to improve performance. The YOLOv3-Reasoner2 model achieves around
2.5% absolute improvement with respect to baseline YOLOv3 on COCO in terms of
mAP while still running in real-time.
- Abstract(参考訳): 対象物の関係を考慮せずに、各画像領域を別々に処理することで、最先端の1段物検出装置を限定する。
これにより、オブジェクトを正常に検出するための高品質な畳み込み特徴表現にのみ依存する。
しかし、いくつかの困難な状況のため、これは不可能な場合もある。
本稿では,一段階物体検出における推論機能の利用について分析する。
我々は自己注意を用いて画像領域の関係を推論する異なるアーキテクチャを試みた。
YOLOv3-Reasoner2モデルは、推論層の機能を空間的に意味的に拡張し、元の畳み込み機能と融合してパフォーマンスを向上させる。
YOLOv3-Reasoner2 モデルは、COCO上のベースライン YOLOv3 に対して、リアルタイムに動作しながら、約2.5%の絶対的な改善を実現している。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。