論文の概要: Learning from One Continuous Video Stream
- arxiv url: http://arxiv.org/abs/2312.00598v1
- Date: Fri, 1 Dec 2023 14:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:18:42.794029
- Title: Learning from One Continuous Video Stream
- Title(参考訳): 連続したビデオストリームから学ぶ
- Authors: Jo\~ao Carreira, Michael King, Viorica P\u{a}tr\u{a}ucean, Dilara
Gokay, C\u{a}t\u{a}lin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl
Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman
- Abstract要約: 1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
- 参考スコア(独自算出の注目度): 70.88879725963575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for online learning from a single continuous video
stream -- the way people and animals learn, without mini-batches, data
augmentation or shuffling. This poses great challenges given the high
correlation between consecutive video frames and there is very little prior
work on it. Our framework allows us to do a first deep dive into the topic and
includes a collection of streams and tasks composed from two existing video
datasets, plus methodology for performance evaluation that considers both
adaptation and generalization. We employ pixel-to-pixel modelling as a
practical and flexible way to switch between pre-training and single-stream
evaluation as well as between arbitrary tasks, without ever requiring changes
to models and always using the same pixel loss. Equipped with this framework we
obtained large single-stream learning gains from pre-training with a novel
family of future prediction tasks, found that momentum hurts, and that the pace
of weight updates matters. The combination of these insights leads to matching
the performance of IID learning with batch size 1, when using the same
architecture and without costly replay buffers.
- Abstract(参考訳): 私たちは、オンライン学習のためのフレームワークを単一の連続的なビデオストリームから導入します。
これは連続するビデオフレーム間の高い相関関係を考えると大きな課題となり、それ以前の作業はほとんどない。
我々のフレームワークは、このトピックを深く掘り下げ、既存の2つのビデオデータセットから作られたストリームとタスクのコレクションと、適応と一般化の両方を考慮したパフォーマンス評価の方法論を含むことができます。
我々は,事前学習と単一ストリーム評価の切り替えと任意のタスクの切り替えを,モデルの変更を必要とせず,常に同じピクセル損失を使用するための実用的で柔軟な方法として,ピクセル間モデリングを採用している。
このフレームワークを実装して,新しい予測タスクのファミリーによる事前学習から得られる,大規模な単一ストリーム学習の成果を得た。
これらの洞察の組み合わせは、同じアーキテクチャを使用し、コストのかかるリプレイバッファなしで、iid学習のパフォーマンスをバッチサイズ1にマッチさせる。
関連論文リスト
- PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。