論文の概要: Learning from One Continuous Video Stream
- arxiv url: http://arxiv.org/abs/2312.00598v2
- Date: Thu, 28 Mar 2024 21:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:17:12.991789
- Title: Learning from One Continuous Video Stream
- Title(参考訳): 1つの連続的ビデオストリームから学ぶ
- Authors: João Carreira, Michael King, Viorica Pătrăucean, Dilara Gokay, Cătălin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman,
- Abstract要約: 1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
- 参考スコア(独自算出の注目度): 70.30084026960819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for online learning from a single continuous video stream -- the way people and animals learn, without mini-batches, data augmentation or shuffling. This poses great challenges given the high correlation between consecutive video frames and there is very little prior work on it. Our framework allows us to do a first deep dive into the topic and includes a collection of streams and tasks composed from two existing video datasets, plus methodology for performance evaluation that considers both adaptation and generalization. We employ pixel-to-pixel modelling as a practical and flexible way to switch between pre-training and single-stream evaluation as well as between arbitrary tasks, without ever requiring changes to models and always using the same pixel loss. Equipped with this framework we obtained large single-stream learning gains from pre-training with a novel family of future prediction tasks, found that momentum hurts, and that the pace of weight updates matters. The combination of these insights leads to matching the performance of IID learning with batch size 1, when using the same architecture and without costly replay buffers.
- Abstract(参考訳): ミニバッチやデータ拡張、シャッフルなしで、人々や動物が学ぶ方法です。
連続するビデオフレーム間の高い相関性を考えると,これは大きな課題となる。
我々のフレームワークは、このトピックを深く掘り下げ、既存の2つのビデオデータセットで構成されたストリームとタスクのコレクションと、適応と一般化の両方を考慮したパフォーマンス評価の方法論を含むことができます。
我々は,事前学習と単一ストリーム評価の切り替えと任意のタスクの切り替えを,モデルの変更を必要とせず,常に同じピクセル損失を使用するための実用的で柔軟な方法として,ピクセル間モデリングを採用している。
この枠組みを取り入れて、将来の予測タスクの新たなファミリーで事前トレーニングを行うことで、大きなシングルストリーム学習の成果を得ることができ、モメンタムが損なわれ、重量の更新のペースが重要になることがわかった。
これらの洞察を組み合わせることで、IID学習のパフォーマンスをバッチサイズ1と一致させることができます。
関連論文リスト
- PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。