論文の概要: Performance of object recognition in wearable videos
- arxiv url: http://arxiv.org/abs/2009.04932v1
- Date: Thu, 10 Sep 2020 15:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:44:26.768749
- Title: Performance of object recognition in wearable videos
- Title(参考訳): ウェアラブルビデオにおける物体認識性能
- Authors: Alberto Sabater, Luis Montesano, Ana C. Murillo
- Abstract要約: 本研究は、このタイプのカメラで撮影した映像における物体検出と位置決めの問題について研究する。
本稿では、精度と速度の優れたトレードオフを提供する、よく知られたYOLOアーキテクチャについて述べる。
- 参考スコア(独自算出の注目度): 9.669942356088377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wearable technologies are enabling plenty of new applications of computer
vision, from life logging to health assistance. Many of them are required to
recognize the elements of interest in the scene captured by the camera. This
work studies the problem of object detection and localization on videos
captured by this type of camera. Wearable videos are a much more challenging
scenario for object detection than standard images or even another type of
videos, due to lower quality images (e.g. poor focus) or high clutter and
occlusion common in wearable recordings. Existing work typically focuses on
detecting the objects of focus or those being manipulated by the user wearing
the camera. We perform a more general evaluation of the task of object
detection in this type of video, because numerous applications, such as
marketing studies, also need detecting objects which are not in focus by the
user. This work presents a thorough study of the well known YOLO architecture,
that offers an excellent trade-off between accuracy and speed, for the
particular case of object detection in wearable video. We focus our study on
the public ADL Dataset, but we also use additional public data for
complementary evaluations. We run an exhaustive set of experiments with
different variations of the original architecture and its training strategy.
Our experiments drive to several conclusions about the most promising
directions for our goal and point us to further research steps to improve
detection in wearable videos.
- Abstract(参考訳): ウェアラブル技術は、ライフログから健康支援まで、コンピュータービジョンの多くの新しい応用を可能にしている。
それらの多くは、カメラが捉えたシーンに対する興味の要素を認識する必要がある。
本研究は、このタイプのカメラで撮影した映像における物体検出と位置決めの問題について研究する。
ウェアラブル・ビデオは、標準画像や他のタイプのビデオよりも、より品質の低い画像(例えば、焦点の粗い)や、ウェアラブル・レコーディングでよく見られる粗雑で閉塞性が高いため、より難しいシナリオである。
既存の作業では、フォーカスのオブジェクトの検出や、カメラを装着したユーザが操作するオブジェクトの検出に重点を置いている。
このタイプのビデオでは,マーケティング研究などの多くのアプリケーションにおいても,ユーザが注目していないオブジェクトを検出する必要があるため,オブジェクト検出のタスクをより一般的に評価する。
この研究は、ウェアラブルビデオにおける物体検出の特定のケースにおいて、精度と速度の優れたトレードオフを提供する、よく知られているyoloアーキテクチャに関する詳細な研究である。
我々は、パブリックなADLデータセットに焦点をあてるが、補完的な評価のために追加の公開データも活用する。
私たちは、元のアーキテクチャとトレーニング戦略の異なるバリエーションを持つ、徹底した実験セットを実行します。
私たちの実験は、目標の最も有望な方向性に関するいくつかの結論をもたらし、ウェアラブルビデオの検出を改善するためのさらなる研究ステップを示します。
関連論文リスト
- FADE: A Dataset for Detecting Falling Objects around Buildings in Video [75.48118923174712]
建物から落下する物体は、大きな衝撃力によって歩行者に重傷を負わせる可能性がある。
FADEには18のシーンから1,881本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。
動作情報を効果的に活用するFADE-Netと呼ばれる新しい物体検出手法を開発した。
論文 参考訳(メタデータ) (2024-08-11T11:43:56Z) - Empowering Visually Impaired Individuals: A Novel Use of Apple Live
Photos and Android Motion Photos [3.66237529322911]
われわれは、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱している。
以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスクにおいて,単フレーム画像よりも優れていた。
論文 参考訳(メタデータ) (2023-09-14T20:46:35Z) - Ensemble Learning techniques for object detection in high-resolution
satellite images [0.0]
組立は個々の検出器を融合させることで検出性能を最大化する手法である。
組立法は、Kaggleのような最近のデータサイエンスの実践において、高いスコアを得るために広く使われてきた。
論文 参考訳(メタデータ) (2022-02-16T10:19:21Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Deep Learning Approach Protecting Privacy in Camera-Based Critical
Applications [57.93313928219855]
カメラベースシステムにおけるプライバシー保護のためのディープラーニングアプローチを提案する。
我々の手法は、アプリケーションで必要とされない直感に基づいて、正当性(視覚的に顕著な)と非正則性(非正則性)を区別する。
論文 参考訳(メタデータ) (2021-10-04T19:16:27Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Learning to Track Object Position through Occlusion [32.458623495840904]
オクルージョンは、物体検出器やトラッカーが直面する最も重要な課題の1つである。
本稿では,領域ベースビデオオブジェクト検出装置の成功に基づくトラッキング・バイ・検出手法を提案する。
提案手法は,インターネットから収集した家具組立ビデオのデータセットにおいて,優れた結果が得られる。
論文 参考訳(メタデータ) (2021-06-20T22:29:46Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Robust and efficient post-processing for video object detection [9.669942356088377]
この研究は、従来の後処理メソッドの制限を克服する、新しい後処理パイプラインを導入している。
本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善する。
そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2020-09-23T10:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。