論文の概要: A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
- arxiv url: http://arxiv.org/abs/2303.09875v2
- Date: Fri, 24 Mar 2023 03:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:27:33.411444
- Title: A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
- Title(参考訳): 映像予測のための動的マルチスケールVoxel Flow Network
- Authors: Xiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou
- Abstract要約: 我々は,より少ない計算コストでより優れた映像予測性能を実現するために,動的マルチスケールVoxel Flow Network (DMVFN)を提案する。
我々のDMVFNは、Deep Voxel Flowよりも桁違いに高速で、生成した画像の品質に対して最先端の反復型OPTを上回ります。
- 参考スコア(独自算出の注目度): 7.922352664664205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of video prediction has been greatly boosted by advanced deep
neural networks. However, most of the current methods suffer from large model
sizes and require extra inputs, e.g., semantic/depth maps, for promising
performance. For efficiency consideration, in this paper, we propose a Dynamic
Multi-scale Voxel Flow Network (DMVFN) to achieve better video prediction
performance at lower computational costs with only RGB images, than previous
methods. The core of our DMVFN is a differentiable routing module that can
effectively perceive the motion scales of video frames. Once trained, our DMVFN
selects adaptive sub-networks for different inputs at the inference stage.
Experiments on several benchmarks demonstrate that our DMVFN is an order of
magnitude faster than Deep Voxel Flow and surpasses the state-of-the-art
iterative-based OPT on generated image quality. Our code and demo are available
at https://huxiaotaostasy.github.io/DMVFN/.
- Abstract(参考訳): ビデオ予測の性能は、高度なディープニューラルネットワークによって大幅に向上している。
しかし、現在の手法のほとんどは大きなモデルサイズに悩まされており、将来性のある性能のためにセマンティック/深度マップのような追加の入力を必要とする。
本稿では,RGB画像のみを用いて,より少ない計算コストでより優れた映像予測性能を実現するための動的マルチスケールVoxel Flow Network(DMVFN)を提案する。
DMVFNの中核は、ビデオフレームの運動スケールを効果的に知覚できる、微分可能なルーティングモジュールである。
トレーニングが完了すると、DMVFNは推論段階で異なる入力に対する適応サブネットワークを選択する。
いくつかのベンチマーク実験により、DMVFNはDeep Voxel Flowよりも桁違いに高速であり、生成した画像の品質に対して最先端の反復型OPTを超えることが示されている。
コードとデモはhttps://huxiaotaostasy.github.io/dmvfn/で閲覧できます。
関連論文リスト
- Deep unrolling Shrinkage Network for Dynamic MR imaging [8.590614722154063]
本稿では,各チャネルの閾値を学習する,チャネルアテンション付きソフトしきい値処理(AST)を提案する。
我々は,乗算器の交互方向をアンロールすることで,新しいディープ・アンロール・ストレナージ・ネットワーク(DUS-Net)を提案する。
オープンアクセス型動的シネMRデータセットの実験結果から,提案したDUS-Netは最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-19T08:06:37Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Meta-Tuning for Content-aware Neural Video Delivery [40.3731358963689]
計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T06:47:10Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Unsupervised Learning of the Total Variation Flow [11.056286994184875]
総変動(TV)フローは、テレビ機能に基づいた画像のスケール空間表現を生成する。
TVflowNETは、初期画像とタイムインスタンスが与えられたTVフローの解を近似するための教師なしニューラルネットワークアプローチである。
また,TVflowNETは,画像サイズや画像の種類に応じて,高い忠実度でTVフロー解を近似することを示した。
論文 参考訳(メタデータ) (2022-06-09T10:39:44Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。