論文の概要: Few-Shot Video Object Detection
- arxiv url: http://arxiv.org/abs/2104.14805v1
- Date: Fri, 30 Apr 2021 07:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:40:34.500617
- Title: Few-Shot Video Object Detection
- Title(参考訳): Few-Shot Video Object Detection
- Authors: Qi Fan, Chi-Keung Tang, Yu-Wing Tai
- Abstract要約: 本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
- 参考スコア(独自算出の注目度): 70.43402912344327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Few-Shot Video Object Detection (FSVOD) with three important
contributions: 1) a large-scale video dataset FSVOD-500 comprising of 500
classes with class-balanced videos in each category for few-shot learning; 2) a
novel Tube Proposal Network (TPN) to generate high-quality video tube proposals
to aggregate feature representation for the target video object; 3) a
strategically improved Temporal Matching Network (TMN+) to match representative
query tube features and supports with better discriminative ability. Our TPN
and TMN+ are jointly and end-to-end trained. Extensive experiments demonstrate
that our method produces significantly better detection results on two few-shot
video object detection datasets compared to image-based methods and other naive
video-based extensions. Codes and datasets will be released at
https://github.com/fanq15/FewX.
- Abstract(参考訳): We introduce Few-Shot Video Object Detection (FSVOD) with three important contributions: 1) a large-scale video dataset FSVOD-500 comprising of 500 classes with class-balanced videos in each category for few-shot learning; 2) a novel Tube Proposal Network (TPN) to generate high-quality video tube proposals to aggregate feature representation for the target video object; 3) a strategically improved Temporal Matching Network (TMN+) to match representative query tube features and supports with better discriminative ability.
TPNとTMN+は共同で、エンドツーエンドで訓練されています。
広汎な実験により,本手法は,画像ベース法および他の単純ビデオベース拡張法と比較して,2つのビデオオブジェクト検出データセットに対して有意に優れた検出結果が得られた。
コードとデータセットはhttps://github.com/fanq15/FewXで公開される。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Class-attention Video Transformer for Engagement Intensity Prediction [20.430266245901684]
CavTは、可変長長ビデオと固定長短ビデオのエンドツーエンド学習を均一に行う方法である。
CavTは、EmotiW-EPデータセット上の最先端MSE(0.0495)、DAiSEEデータセット上の最先端MSE(0.0377)を達成する。
論文 参考訳(メタデータ) (2022-08-12T01:21:30Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。