論文の概要: Sideways: Depth-Parallel Training of Video Models
- arxiv url: http://arxiv.org/abs/2001.06232v3
- Date: Mon, 30 Mar 2020 22:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 09:50:50.512127
- Title: Sideways: Depth-Parallel Training of Video Models
- Title(参考訳): サイドウェイ:ビデオモデルの深度パラレルトレーニング
- Authors: Mateusz Malinowski and Grzegorz Swirszcz and Joao Carreira and Viorica
Patraucean
- Abstract要約: Sidewaysは、ビデオモデルのトレーニングのための近似バックプロパゲーションスキームである。
Sidewaysは、標準の同期バックプロパゲーションと比較して、より優れた一般化を示す可能性があることを示す。
- 参考スコア(独自算出の注目度): 19.370765021278004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Sideways, an approximate backpropagation scheme for training video
models. In standard backpropagation, the gradients and activations at every
computation step through the model are temporally synchronized. The forward
activations need to be stored until the backward pass is executed, preventing
inter-layer (depth) parallelization. However, can we leverage smooth, redundant
input streams such as videos to develop a more efficient training scheme? Here,
we explore an alternative to backpropagation; we overwrite network activations
whenever new ones, i.e., from new frames, become available. Such a more gradual
accumulation of information from both passes breaks the precise correspondence
between gradients and activations, leading to theoretically more noisy weight
updates. Counter-intuitively, we show that Sideways training of deep
convolutional video networks not only still converges, but can also potentially
exhibit better generalization compared to standard synchronized
backpropagation.
- Abstract(参考訳): ビデオモデルをトレーニングするための近似バックプロパゲーション方式であるSidewaysを提案する。
標準バックプロパゲーションでは、モデルを通る各計算ステップにおける勾配とアクティベーションは時間同期される。
フォワードアクティベーションは、後方パスが実行されるまで保存されなければならず、層間(深度)の並列化が防止される。
しかし、ビデオのようなスムーズで冗長な入力ストリームを利用して、より効率的なトレーニング手法を開発できるだろうか?
ここでは、バックプロパゲーションの代替として、新しいフレーム、すなわち新しいフレームが利用可能になるたびに、ネットワークアクティベーションを上書きする。
このような段階的な情報蓄積は、勾配とアクティベーションの正確な対応を損なうため、理論的にはより騒がしい重みの更新につながる。
直観的に言うと、深層畳み込みビデオネットワークのトレーニングは依然として収束するだけでなく、標準同期バックプロパゲーションよりもより良い一般化を示す可能性がある。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization [65.33914980022303]
時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
論文 参考訳(メタデータ) (2022-11-25T12:17:30Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Gradient Forward-Propagation for Large-Scale Temporal Video Modelling [13.665160620951777]
バックプロパゲーションは前方と後方のパスが完了するまで計算をブロックする。
時間信号の場合、これはレイテンシが高く、リアルタイム学習を妨げる。
本稿では,Sideways上に構築し,時間内に近似勾配を伝搬することでブロッキングを回避する。
計算を分離し、個々のニューラルネットワークモジュールを異なるデバイスに委譲する方法を示し、分散および並列トレーニングを可能にする。
論文 参考訳(メタデータ) (2021-06-15T17:50:22Z) - Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct
Feedback Alignment [26.65651157173834]
数兆のパラメータでランダムなプロジェクションを計算できる、ダイレクトフィードバックアライメントのためのフォトニック加速器を提案する。
これはスケーラブルなハードウェアを構築するための重要なステップであり、バックプロパゲーションを超えることができる。
論文 参考訳(メタデータ) (2020-12-11T14:20:45Z) - Curriculum Learning for Recurrent Video Object Segmentation [2.3376061255029064]
本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
論文 参考訳(メタデータ) (2020-08-15T10:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。