論文の概要: Accelerating the Training of Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2205.05069v1
- Date: Tue, 10 May 2022 17:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:44:34.302349
- Title: Accelerating the Training of Video Super-Resolution
- Title(参考訳): ビデオ超解像の訓練の高速化
- Authors: Lijian Lin, Xintao Wang, Zhongang Qi, Ying Shan
- Abstract要約: そこで本研究では,ビデオモデルを小型から大型の空間的・時間的サイズに段階的に訓練することが可能であることを示す。
本手法は, 各種VSRモデルの性能低下を伴わずに, トレーニングの大幅な高速化(ウォールクロックトレーニング時間で最大6.2倍のスピードアップ)が可能となる。
- 参考スコア(独自算出の注目度): 26.449738545078986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite that convolution neural networks (CNN) have recently demonstrated
high-quality reconstruction for video super-resolution (VSR), efficiently
training competitive VSR models remains a challenging problem. It usually takes
an order of magnitude more time than training their counterpart image models,
leading to long research cycles. Existing VSR methods typically train models
with fixed spatial and temporal sizes from beginning to end. The fixed sizes
are usually set to large values for good performance, resulting to slow
training. However, is such a rigid training strategy necessary for VSR? In this
work, we show that it is possible to gradually train video models from small to
large spatial/temporal sizes, i.e., in an easy-to-hard manner. In particular,
the whole training is divided into several stages and the earlier stage has
smaller training spatial shape. Inside each stage, the temporal size also
varies from short to long while the spatial size remains unchanged. Training is
accelerated by such a multigrid training strategy, as most of computation is
performed on smaller spatial and shorter temporal shapes. For further
acceleration with GPU parallelization, we also investigate the large minibatch
training without the loss in accuracy. Extensive experiments demonstrate that
our method is capable of largely speeding up training (up to $6.2\times$
speedup in wall-clock training time) without performance drop for various VSR
models. The code is available at
https://github.com/TencentARC/Efficient-VSR-Training.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は最近、ビデオ超解像(VSR)の高品質な再構成を実証しているが、競争力のあるVSRモデルを効率的に訓練することは難しい問題である。
通常は、対応するイメージモデルをトレーニングするよりも桁違いに時間がかかるため、長い研究サイクルが経ちます。
既存のVSR手法は、通常、最初から端まで固定された空間サイズと時間サイズを持つモデルを訓練する。
固定サイズは通常、優れたパフォーマンスのために大きな値に設定され、トレーニングが遅くなる。
しかし、このような厳格な訓練戦略はVSRに必要か?
本研究では,小型から大規模の空間的/時間的サイズ,すなわち難易度の高い映像モデルを徐々に訓練することが可能であることを示す。
特に、訓練全体はいくつかの段階に分けられ、初期の段階は訓練空間の形状が小さい。
それぞれのステージ内では、時間的サイズも短いものから長いものまで変化するが、空間的サイズは変わらない。
このようなマルチグリッドトレーニング戦略により、トレーニングは加速されるが、ほとんどの計算は、より小さな空間的および短い時間的形状で実行される。
また,GPU並列化によるさらなる加速のために,精度の低下を伴わない大規模なミニバッチトレーニングについても検討する。
広汎な実験により,VSRモデルの性能低下を伴わないトレーニング(最大6.2\times$downup in wall-clock training time)をほぼ高速化できることが示された。
コードはhttps://github.com/TencentARC/Efficient-VSR-Trainingで公開されている。
関連論文リスト
- Time-series Initialization and Conditioning for Video-agnostic Stabilization of Video Super-Resolution using Recurrent Networks [13.894981567082997]
ビデオスーパーレゾリューション(VSR)のためのリカレントニューラルネットワーク(RNN)は、通常ランダムにクリップされ、トリミングされた短いビデオで訓練される。
このRNNは超解像ショートビデオに最適化されているため、長いビデオのVSRはドメインギャップのために劣化する。
本稿では,VSRにおけるRNNのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-23T13:16:07Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。