論文の概要: Label-Efficient Online Continual Object Detection in Streaming Video
- arxiv url: http://arxiv.org/abs/2206.00309v1
- Date: Wed, 1 Jun 2022 08:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:17:12.500163
- Title: Label-Efficient Online Continual Object Detection in Streaming Video
- Title(参考訳): ストリーミングビデオにおけるラベル効率の高いオンライン連続物体検出
- Authors: Jay Zhangjie Wu, David Junhao Zhang, Wynne Hsu, Mengmi Zhang, Mike
Zheng Shou
- Abstract要約: 環境の中で育つためには、人間は最小限の監督力を持つビデオストリームから新しい知識を継続的に取得し、転送することができる。
我々は、人間の脳における補完的な学習システムを進化させようとしている。
- 参考スコア(独自算出の注目度): 12.636157060155723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To thrive in evolving environments, humans are capable of continual
acquisition and transfer of new knowledge, from a continuous video stream, with
minimal supervisions, while retaining previously learnt experiences. In
contrast to human learning, most standard continual learning benchmarks focus
on learning from static iid images in fully supervised settings. Here, we
examine a more realistic and challenging
problem$\unicode{x2014}$Label-Efficient Online Continual Object Detection
(LEOCOD) in video streams. By addressing this problem, it would greatly benefit
many real-world applications with reduced annotation costs and retraining time.
To tackle this problem, we seek inspirations from complementary learning
systems (CLS) in human brains and propose a computational model, dubbed as
Efficient-CLS. Functionally correlated with the hippocampus and the neocortex
in CLS, Efficient-CLS posits a memory encoding mechanism involving
bidirectional interaction between fast and slow learners via synaptic weight
transfers and pattern replays. We test Efficient-CLS and competitive baselines
in two challenging real-world video stream datasets. Like humans, Efficient-CLS
learns to detect new object classes incrementally from a continuous temporal
stream of non-repeating video with minimal forgetting. Remarkably, with only
25% annotated video frames, our Efficient-CLS still leads among all comparative
models, which are trained with 100% annotations on all video frames. The data
and source code will be publicly available at
https://github.com/showlab/Efficient-CLS.
- Abstract(参考訳): 進化する環境の中で繁栄するために、人間は、これまで学んだ経験を保ちながら、継続的なビデオストリームから新しい知識を継続的に獲得し、伝達することができる。
人間の学習とは対照的に、ほとんどの標準的な連続学習ベンチマークは、完全に教師された設定で静的なid画像から学ぶことに焦点を当てている。
ここでは、ビデオストリームにおけるより現実的で困難な問題$\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD)について検討する。
この問題に対処することで、アノテーションコストの削減とリトレーニング時間による、多くの実世界のアプリケーションに大きなメリットが得られるでしょう。
そこで我々は,人間の脳における補完学習システム(CLS)からインスピレーションを得て,効率的なCLSと呼ばれる計算モデルを提案する。
CLSの海馬や新皮質と機能的に相関し、Efficient-CLSはシナプスウェイトトランスファーとパターンリプレイを通じて、高速学習者と遅い学習者の双方向相互作用を含むメモリエンコーディング機構を提示する。
2つの挑戦的な実世界のビデオストリームデータセットで効率的なclsと競合ベースラインをテストする。
人間と同じように、Efficient-CLSは、最小限の忘れ物で非繰り返しビデオの連続時間ストリームから、新しいオブジェクトクラスを漸進的に検出することを学ぶ。
注目すべきは、25%の注釈付きビデオフレームだけで、当社のEfficient-CLSは、すべてのビデオフレームに100%アノテーションでトレーニングされたすべての比較モデルの中で、依然としてリードしています。
データとソースコードはhttps://github.com/showlab/Efficient-CLS.comで公開される。
関連論文リスト
- T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Incremental Learning from Low-labelled Stream Data in Open-Set Video
Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。
本手法は,教師なしの操作データを用いて認識性を向上させる。
結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文 参考訳(メタデータ) (2020-12-17T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。