論文の概要: Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme
- arxiv url: http://arxiv.org/abs/2103.14724v2
- Date: Tue, 30 Mar 2021 01:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 12:01:31.607556
- Title: Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme
- Title(参考訳): 転送学習方式におけるビデオ物体検出のためのFew-Shot Learning
- Authors: Zhongjie Yu, Gaoang Wang, Lin Chen, Sebastian Raschka, and Jiebo Luo
- Abstract要約: ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
- 参考スコア(独自算出の注目度): 70.45901040613015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from static images, videos contain additional temporal and spatial
information for better object detection. However, it is costly to obtain a
large number of videos with bounding box annotations that are required for
supervised deep learning. Although humans can easily learn to recognize new
objects by watching only a few video clips, deep learning usually suffers from
overfitting. This leads to an important question: how to effectively learn a
video object detector from only a few labeled video clips? In this paper, we
study the new problem of few-shot learning for video object detection. We first
define the few-shot setting and create a new benchmark dataset for few-shot
video object detection derived from the widely used ImageNet VID dataset. We
employ a transfer-learning framework to effectively train the video object
detector on a large number of base-class objects and a few video clips of
novel-class objects. By analyzing the results of two methods under this
framework (Joint and Freeze) on our designed weak and strong base datasets, we
reveal insufficiency and overfitting problems. A simple but effective method,
called Thaw, is naturally developed to trade off the two problems and validate
our analysis.
Extensive experiments on our proposed benchmark datasets with different
scenarios demonstrate the effectiveness of our novel analysis in this new
few-shot video object detection problem.
- Abstract(参考訳): 静止画像と異なり、ビデオには、より優れた物体検出のための時間的および空間的な情報が含まれている。
しかしながら、教師付きディープラーニングに必要なバウンディングボックスアノテーションを備えた多数のビデオを取得するには、コストがかかる。
人間はビデオクリップを数本だけ見ることで、新しい物体の認識を容易に学べるが、ディープラーニングは通常、過度な適合に苦しむ。
いくつかのラベル付きビデオクリップからビデオオブジェクト検出器を効果的に学習するには、どうすればよいのか?
本稿では,ビデオオブジェクト検出における数ショット学習の新たな課題について検討する。
まず,画像Net VIDデータセットから得られた画像オブジェクト検出のための新しいベンチマークデータセットを作成する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
この枠組みに基づく2つの手法 (Joint と Freeze) の結果を, 設計した弱い, 強いベースデータセット上で解析することにより, 不完全性や過度な問題を明らかにする。
Thawと呼ばれるシンプルで効果的な方法が自然に開発され、2つの問題を交換し、我々の分析を検証する。
異なるシナリオで提案したベンチマークデータセットに対する大規模な実験は、この新たな数発のビデオオブジェクト検出問題において、新しい分析の有効性を示す。
関連論文リスト
- FADE: A Dataset for Detecting Falling Objects around Buildings in Video [75.48118923174712]
建物から落下する物体は、大きな衝撃力によって歩行者に重傷を負わせる可能性がある。
FADEには18のシーンから1,881本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。
動作情報を効果的に活用するFADE-Netと呼ばれる新しい物体検出手法を開発した。
論文 参考訳(メタデータ) (2024-08-11T11:43:56Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K
Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。
鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。
我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文 参考訳(メタデータ) (2021-05-18T03:22:03Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Performance of object recognition in wearable videos [9.669942356088377]
本研究は、このタイプのカメラで撮影した映像における物体検出と位置決めの問題について研究する。
本稿では、精度と速度の優れたトレードオフを提供する、よく知られたYOLOアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2020-09-10T15:20:17Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。