論文の概要: Label-Efficient Online Continual Object Detection in Streaming Video
- arxiv url: http://arxiv.org/abs/2206.00309v2
- Date: Wed, 23 Aug 2023 15:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 19:18:28.338870
- Title: Label-Efficient Online Continual Object Detection in Streaming Video
- Title(参考訳): ストリーミングビデオにおけるラベル効率の高いオンライン連続物体検出
- Authors: Jay Zhangjie Wu, David Junhao Zhang, Wynne Hsu, Mengmi Zhang, Mike
Zheng Shou
- Abstract要約: 既存の連続学習法(CL)では、ビデオストリームでフレームを学習するために完全な注釈付きラベルが必要である。
ストリーミングストリームにおける連続物体検出のためのプラグイン・アンド・プレイモジュールを提案する。
本手法は,実写ビデオの2つのベンチマークにおいて,全監督レベルにおいて有意な改善が得られた。
- 参考スコア(独自算出の注目度): 26.090873634405895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can watch a continuous video stream and effortlessly perform continual
acquisition and transfer of new knowledge with minimal supervision yet
retaining previously learnt experiences. In contrast, existing continual
learning (CL) methods require fully annotated labels to effectively learn from
individual frames in a video stream. Here, we examine a more realistic and
challenging problem$\unicode{x2014}$Label-Efficient Online Continual Object
Detection (LEOCOD) in streaming video. We propose a plug-and-play module,
Efficient-CLS, that can be easily inserted into and improve existing continual
learners for object detection in video streams with reduced data annotation
costs and model retraining time. We show that our method has achieved
significant improvement with minimal forgetting across all supervision levels
on two challenging CL benchmarks for streaming real-world videos. Remarkably,
with only 25% annotated video frames, our method still outperforms the base CL
learners, which are trained with 100% annotations on all video frames. The data
and source code will be publicly available at
https://github.com/showlab/Efficient-CLS.
- Abstract(参考訳): 人間は連続したビデオストリームを視聴し、これまで学んだ経験を保ちながら、最小限の監督で新しい知識を継続的に獲得し、転送することができる。
対照的に、既存の連続学習(CL)手法では、ビデオストリーム内の個々のフレームから効果的に学習するために、完全な注釈付きラベルが必要である。
本稿では,ストリーミングビデオにおけるより現実的で困難な問題である$\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD)について検討する。
本稿では,ビデオストリームにおける物体検出のための既存の連続学習者への挿入と改良が容易で,データアノテーションコストの低減とモデルのリトレーニング時間の短縮が可能な,プラグアンドプレイモジュールである efficient-clsを提案する。
本手法は,実世界のビデオストリーミングにおける2つの挑戦的clベンチマークにおいて,全監督レベルを最小にし,大幅な改善を達成している。
注釈付きビデオフレームは25%に過ぎず,本手法は,すべてのビデオフレームに対して100%のアノテーションで訓練されたベースCL学習者よりも優れている。
データとソースコードはhttps://github.com/showlab/Efficient-CLS.comで公開される。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Incremental Learning from Low-labelled Stream Data in Open-Set Video
Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。
本手法は,教師なしの操作データを用いて認識性を向上させる。
結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文 参考訳(メタデータ) (2020-12-17T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。