論文の概要: Learning from Streaming Video with Orthogonal Gradients
- arxiv url: http://arxiv.org/abs/2504.01961v1
- Date: Wed, 02 Apr 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:08.520801
- Title: Learning from Streaming Video with Orthogonal Gradients
- Title(参考訳): 直交勾配によるストリーミングビデオからの学習
- Authors: Tengda Han, Dilara Gokay, Joseph Heyward, Chuhan Zhang, Daniel Zoran, Viorica Pătrăucean, João Carreira, Dima Damen, Andrew Zisserman,
- Abstract要約: 本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
- 参考スコア(独自算出の注目度): 62.51504086522027
- License:
- Abstract: We address the challenge of representation learning from a continuous stream of video as input, in a self-supervised manner. This differs from the standard approaches to video learning where videos are chopped and shuffled during training in order to create a non-redundant batch that satisfies the independently and identically distributed (IID) sample assumption expected by conventional training paradigms. When videos are only available as a continuous stream of input, the IID assumption is evidently broken, leading to poor performance. We demonstrate the drop in performance when moving from shuffled to sequential learning on three tasks: the one-video representation learning method DoRA, standard VideoMAE on multi-video datasets, and the task of future video prediction. To address this drop, we propose a geometric modification to standard optimizers, to decorrelate batches by utilising orthogonal gradients during training. The proposed modification can be applied to any optimizer -- we demonstrate it with Stochastic Gradient Descent (SGD) and AdamW. Our proposed orthogonal optimizer allows models trained from streaming videos to alleviate the drop in representation learning performance, as evaluated on downstream tasks. On three scenarios (DoRA, VideoMAE, future prediction), we show our orthogonal optimizer outperforms the strong AdamW in all three scenarios.
- Abstract(参考訳): 本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、ビデオが訓練中に切り刻まれてシャッフルされるビデオ学習の標準的なアプローチと異なり、従来の訓練パラダイムによって期待される、独立的で同一に分散されたIIDサンプルの仮定を満たす非冗長なバッチを作成する。
ビデオが連続的な入力ストリームとしてのみ利用可能である場合、IDの仮定は明らかに失敗し、パフォーマンスが低下する。
本研究では,一映像表現学習手法DoRA,マルチビデオデータセット上の標準ビデオMAE,将来のビデオ予測タスクの3つのタスクにおいて,シャッフルから逐次学習への移行時の性能低下を示す。
この減少に対処するために、トレーニング中の直交勾配を利用してバッチをデコレーションする標準オプティマイザの幾何的修正を提案する。
提案された修正は任意のオプティマイザに適用することができます -- Stochastic Gradient Descent (SGD) と AdamW でそれを実証します。
提案する直交オプティマイザにより,ストリーミングビデオからトレーニングしたモデルにより,下流タスクで評価されるように,表現学習性能の低下を軽減することができる。
3つのシナリオ(DoRA, VideoMAE, future prediction)では、直交オプティマイザがAdamWよりも優れていることを示す。
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。