論文の概要: MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style
Transfer System for Mobile Phones
- arxiv url: http://arxiv.org/abs/2005.11630v2
- Date: Mon, 1 Jun 2020 19:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:32:29.874548
- Title: MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style
Transfer System for Mobile Phones
- Title(参考訳): MVStylizer:携帯電話用エッジ支援型ビデオフォトリアリスティックスタイル転送システム
- Authors: Ang Li, Chunpeng Wu, Yiran Chen, Bin Ni
- Abstract要約: 携帯電話用エッジアシスト型ビデオ転送システムであるMVStylizerを提案する。
MVStylizerは、最先端の方法に比べて、より優れた視覚的品質でスタイリングされたビデオを生成することができる。
- 参考スコア(独自算出の注目度): 39.94170753983804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has made great progress in realizing neural style transfer of
images, which denotes transforming an image to a desired style. Many users
start to use their mobile phones to record their daily life, and then edit and
share the captured images and videos with other users. However, directly
applying existing style transfer approaches on videos, i.e., transferring the
style of a video frame by frame, requires an extremely large amount of
computation resources. It is still technically unaffordable to perform style
transfer of videos on mobile phones. To address this challenge, we propose
MVStylizer, an efficient edge-assisted photorealistic video style transfer
system for mobile phones. Instead of performing stylization frame by frame,
only key frames in the original video are processed by a pre-trained deep
neural network (DNN) on edge servers, while the rest of stylized intermediate
frames are generated by our designed optical-flow-based frame interpolation
algorithm on mobile phones. A meta-smoothing module is also proposed to
simultaneously upscale a stylized frame to arbitrary resolution and remove
style transfer related distortions in these upscaled frames. In addition, for
the sake of continuously enhancing the performance of the DNN model on the edge
server, we adopt a federated learning scheme to keep retraining each DNN model
on the edge server with collected data from mobile clients and syncing with a
global DNN model on the cloud server. Such a scheme effectively leverages the
diversity of collected data from various mobile clients and efficiently
improves the system performance. Our experiments demonstrate that MVStylizer
can generate stylized videos with an even better visual quality compared to the
state-of-the-art method while achieving 75.5$\times$ speedup for
1920$\times$1080 videos.
- Abstract(参考訳): 最近の研究は、画像が望ましいスタイルに変換されることを示す画像のニューラルスタイルの転送の実現に大きな進歩をもたらした。
多くのユーザーは携帯電話を使って日々の生活を記録し、撮影した画像やビデオを他のユーザーと編集して共有する。
しかし、ビデオに既存のスタイル転送アプローチを直接適用すること、すなわちビデオフレームのスタイルをフレーム単位で転送することは、非常に多くの計算資源を必要とする。
携帯電話で動画のスタイル転送を行うのは技術的には不可能である。
この課題に対処するため,携帯電話用エッジ支援型フォトリアリスティックビデオ転送システムであるMVStylizerを提案する。
フレーム毎にスタイライゼーションを行う代わりに、エッジサーバ上の事前訓練されたディープニューラルネットワーク(dnn)で元のビデオのキーフレームのみを処理し、残りのスタイライゼーション中間フレームは携帯電話の光フローベースのフレーム補間アルゴリズムによって生成される。
メタ平滑化モジュールは、任意の解像度にスタイリングされたフレームを同時にアップスケールし、これらのアップスケールされたフレームのスタイル転送関連歪みを取り除く。
さらに,エッジサーバ上でのDNNモデルの性能を継続的に向上するために,モバイルクライアントからの収集データとクラウドサーバ上のグローバルDNNモデルとの同期により,エッジサーバ上での各DNNモデルをトレーニングし続けるためのフェデレート学習方式を採用した。
このようなスキームは、様々なモバイルクライアントから収集したデータの多様性を効果的に活用し、システム性能を効率的に改善する。
我々の実験は、MVStylizerが1920$\times$1080ビデオの75.5$\times$スピードアップを達成しながら、最先端の手法と比較して、より優れた視覚的品質のスタイリングビデオを生成することができることを示した。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z) - GPU-Accelerated Mobile Multi-view Style Transfer [0.04618037115403289]
3Dフォトプラットフォームは、コンテンツ作成を容易にするシンプルな画像操作ツールを提供する必要がある。
GPU技術の最近の進歩によって推進されたアーティスティックなニューラルスタイルの転送は、従来の写真を強化するツールのひとつだ。
本稿では、ビュー間のスタイル整合性を実現するGPUアクセラレーション方式のマルチビュー転送パイプラインを提案する。
論文 参考訳(メタデータ) (2020-03-02T08:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。