論文の概要: SpeedNet: Learning the Speediness in Videos
- arxiv url: http://arxiv.org/abs/2004.06130v2
- Date: Sun, 26 Jul 2020 14:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:09:26.389163
- Title: SpeedNet: Learning the Speediness in Videos
- Title(参考訳): SpeedNet: ビデオのスピードを学習する
- Authors: Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri, William T.
Freeman, Michael Rubinstein, Michal Irani and Tali Dekel
- Abstract要約: SpeedNetは、ビデオが正常に再生されているか、あるいは再生されているかを検出するために訓練された、新しいディープネットワークである。
本稿では,この単一バイナリ分類ネットワークを用いて物体の速度を任意に検出する方法を示す。
- 参考スコア(独自算出の注目度): 54.798526633714474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We wish to automatically predict the "speediness" of moving objects in
videos---whether they move faster, at, or slower than their "natural" speed.
The core component in our approach is SpeedNet---a novel deep network trained
to detect if a video is playing at normal rate, or if it is sped up. SpeedNet
is trained on a large corpus of natural videos in a self-supervised manner,
without requiring any manual annotations. We show how this single, binary
classification network can be used to detect arbitrary rates of speediness of
objects. We demonstrate prediction results by SpeedNet on a wide range of
videos containing complex natural motions, and examine the visual cues it
utilizes for making those predictions. Importantly, we show that through
predicting the speed of videos, the model learns a powerful and meaningful
space-time representation that goes beyond simple motion cues. We demonstrate
how those learned features can boost the performance of self-supervised action
recognition, and can be used for video retrieval. Furthermore, we also apply
SpeedNet for generating time-varying, adaptive video speedups, which can allow
viewers to watch videos faster, but with less of the jittery, unnatural motions
typical to videos that are sped up uniformly.
- Abstract(参考訳): 動画中の移動物体の「速度」を自動で予測したい。「自然な」速度よりも速く、遅く動くか。このアプローチのコアコンポーネントはspeednetだ。ビデオが正常な速度で再生されているか、あるいはスピーディーアップされているかを検出するために訓練された、新しいディープネットワークだ。
SpeedNetは、手動のアノテーションを必要とせずに、自然ビデオの大規模なコーパスを自己管理的にトレーニングする。
本稿では,この単一バイナリ分類ネットワークを用いて物体の速度を任意に検出する方法を示す。
複雑な自然な動きを含む幅広いビデオに対してspeednetによる予測結果を示し,その予測に使用する視覚手がかりについて検討する。
重要なのは、ビデオの速度を予測することによって、単純な動きの手がかりを超えて、強力で意味のある時空表現を学習できることである。
これらの学習機能により,自己教師付き行動認識の性能が向上し,映像検索に利用できることを示す。
また、タイムラプスで適応的なビデオスピードアップを生成するためにSpeedNetを適用することで、視聴者はより高速にビデオを見ることができるが、一様に再生されるビデオに典型的なジッタリで不自然な動きは少ない。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics [18.042752812489276]
視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。
その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
論文 参考訳(メタデータ) (2024-04-14T13:14:13Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Video-ReTime: Learning Temporally Varying Speediness for Time Remapping [12.139222986297263]
我々は、自己スーパービジョンを介してニューラルネットワークをトレーニングし、ビデオ再生速度の変化を認識し、正確にローカライズする。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
論文 参考訳(メタデータ) (2022-05-11T16:27:47Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。