論文の概要: Issues in Object Detection in Videos using Common Single-Image CNNs
- arxiv url: http://arxiv.org/abs/2105.12822v1
- Date: Wed, 26 May 2021 20:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 11:52:54.572396
- Title: Issues in Object Detection in Videos using Common Single-Image CNNs
- Title(参考訳): 共通画像CNNを用いた映像中の物体検出の課題
- Authors: Spencer Ploeger and Lucas Dasovic
- Abstract要約: 物体検出は、産業プロセス、医療画像分析、自動運転車などの多くの用途で使われている。
自動運転車のようなアプリケーションにとって、オブジェクト検出システムはビデオ内の複数のフレームを通してオブジェクトを識別できることが重要である。
オブジェクト検出には多くのニューラルネットワークが使われており、もしフレーム間でオブジェクトを接続する方法があったら、これらの問題は排除される可能性がある。
データセットは、連続するビデオフレームを表現し、接地構造層と一致するイメージで作成されなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing branch of computer vision is object detection. Object detection is
used in many applications such as industrial process, medical imaging analysis,
and autonomous vehicles. The ability to detect objects in videos is crucial.
Object detection systems are trained on large image datasets. For applications
such as autonomous vehicles, it is crucial that the object detection system can
identify objects through multiple frames in video. There are many problems with
applying these systems to video. Shadows or changes in brightness that can
cause the system to incorrectly identify objects frame to frame and cause an
unintended system response. There are many neural networks that have been used
for object detection and if there was a way of connecting objects between
frames then these problems could be eliminated. For these neural networks to
get better at identifying objects in video, they need to be re-trained. A
dataset must be created with images that represent consecutive video frames and
have matching ground-truth layers. A method is proposed that can generate these
datasets. The ground-truth layer contains only moving objects. To generate this
layer, FlowNet2-Pytorch was used to create the flow mask using the novel
Magnitude Method. As well, a segmentation mask will be generated using networks
such as Mask R-CNN or Refinenet. These segmentation masks will contain all
objects detected in a frame. By comparing this segmentation mask to the flow
mask ground-truth layer, a loss function is generated. This loss function can
be used to train a neural network to be better at making consistent predictions
on video. The system was tested on multiple video samples and a loss was
generated for each frame, proving the Magnitude Method's ability to be used to
train object detection neural networks in future work.
- Abstract(参考訳): コンピュータビジョンの増大する分野はオブジェクト検出である。
物体検出は、産業プロセス、医療画像分析、自動運転車などの多くの用途で使われている。
ビデオ中の物体を検出する能力は重要だ。
オブジェクト検出システムは、大規模な画像データセットで訓練される。
自動運転車のようなアプリケーションにとって、オブジェクト検出システムはビデオ内の複数のフレームを通してオブジェクトを識別できることが重要である。
これらのシステムをビデオに適用するには多くの問題がある。
明るさの影や変化は、システムが誤ってオブジェクトフレームを識別し、意図しないシステム応答を引き起こす可能性がある。
オブジェクト検出に多くのニューラルネットワークが使われており、もしフレーム間でオブジェクトを接続する方法があったら、これらの問題は排除できるだろう。
これらのニューラルネットワークがビデオ内のオブジェクトの識別を良くするためには、再トレーニングが必要だ。
データセットは、連続するビデオフレームを表すイメージと、一致する地上構造層で作成されなければならない。
これらのデータセットを生成できる手法を提案する。
接地層は動く物体のみを含む。
この層を生成するために、flownet2-pytorchは、新しいマグニチュード法を用いたフローマスクの作成に使用された。
また、Mask R-CNNやRefinenetのようなネットワークを使ってセグメンテーションマスクを生成する。
これらのセグメンテーションマスクは、フレーム内で検出されたすべてのオブジェクトを含む。
このセグメンテーションマスクをフローマスク接地層と比較することにより、損失関数を生成する。
この損失関数は、ビデオ上で一貫した予測を行うためにニューラルネットワークをトレーニングするために使用できる。
システムは複数のビデオサンプルでテストされ、各フレームに損失が発生し、将来の作業でオブジェクト検出ニューラルネットワークのトレーニングに使用されるマグニチュード法の能力が証明された。
関連論文リスト
- Accelerating Object Detection with YOLOv4 for Real-Time Applications [0.276240219662896]
畳み込みニューラルネットワーク(CNN)は、ほとんどの問題に対して画像コンテンツとコンピュータビジョンアプローチを認識する強力なツールとして登場した。
本稿では、畳み込みニューラルネットワーク(CNN)のようなディープラーニングとオブジェクト検出フレームワークの簡単な紹介を紹介する。
論文 参考訳(メタデータ) (2024-10-17T17:44:57Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Building Flyweight FLIM-based CNNs with Adaptive Decoding for Object
Detection [40.97322222472642]
本研究では、ユーザ描画マーカーからオブジェクトを検出するために、畳み込みニューラルネットワーク(CNN)層を構築する方法を提案する。
糞便サンプルの顕微鏡画像におけるSchistosomiasis mansoni卵の検出と,衛星画像における船舶の検出に対処する。
我々のCNNは、SOTAオブジェクト検出器より数千倍も小さく、CPU実行に適している。
論文 参考訳(メタデータ) (2023-06-26T16:48:20Z) - Application Of ADNN For Background Subtraction In Smart Surveillance
System [0.0]
動作検出にADNNアーキテクチャを使用したインテリジェントなビデオ監視システムを開発し,動作のみを含む部分で映像をトリムし,トリミングされた映像に対して異常検出を行う。
論文 参考訳(メタデータ) (2022-12-31T18:42:11Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Recurrent Neural Networks for video object detection [0.0]
この研究は異なる方法、特にビデオ内のオブジェクトを検出するためにリカレントニューラルネットワークを使用するものを比較する。
我々は,異なるフレームの特徴マップをリカレントユニットに供給する特徴ベース手法と,リカレントユニットにクラス確率を持つバウンディングボックスをリカレントユニットに供給するボックスレベル手法と,フローネットワークを使用するメソッドとを区別する。
論文 参考訳(メタデータ) (2020-10-29T16:40:10Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。