論文の概要: Kunster -- AR Art Video Maker -- Real time video neural style transfer
on mobile devices
- arxiv url: http://arxiv.org/abs/2005.03415v1
- Date: Thu, 7 May 2020 12:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:05:19.693682
- Title: Kunster -- AR Art Video Maker -- Real time video neural style transfer
on mobile devices
- Title(参考訳): Kunster -- AR Art Video Maker -- モバイルデバイス上でのリアルタイムビデオニューラルスタイル転送
- Authors: Wojciech Dudzik, Damian Kosowski
- Abstract要約: 我々は、モバイルデバイス上で実行できるリアルタイムビデオ(毎秒25フレーム以上)にニューラルスタイルの転送を適用しました。
また、時間的コヒーレンスを達成するための作業について検討し、安定したビデオを実現するための微調整、既に訓練済みのモデルを提案する。
実験のセクションでは、iOSデバイスに関する作業結果を示し、現在のAndroidデバイスに存在する問題と今後の可能性について議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural style transfer is a well-known branch of deep learning research, with
many interesting works and two major drawbacks. Most of the works in the field
are hard to use by non-expert users and substantial hardware resources are
required. In this work, we present a solution to both of these problems. We
have applied neural style transfer to real-time video (over 25 frames per
second), which is capable of running on mobile devices. We also investigate the
works on achieving temporal coherence and present the idea of fine-tuning,
already trained models, to achieve stable video. What is more, we also analyze
the impact of the common deep neural network architecture on the performance of
mobile devices with regard to number of layers and filters present. In the
experiment section we present the results of our work with respect to the iOS
devices and discuss the problems present in current Android devices as well as
future possibilities. At the end we present the qualitative results of
stylization and quantitative results of performance tested on the iPhone 11 Pro
and iPhone 6s. The presented work is incorporated in Kunster - AR Art Video
Maker application available in the Apple's App Store.
- Abstract(参考訳): ニューラルスタイルの伝達は、多くの興味深い研究と2つの大きな欠点を持つ、ディープラーニング研究のよく知られた分野である。
この分野の作業の大部分は、専門家でないユーザでは使用が困難であり、ハードウェアリソースが相当必要である。
本稿では,これら2つの問題に対する解決策を提案する。
我々は,モバイルデバイス上で動作可能なリアルタイムビデオ(毎秒25フレーム以上)に,ニューラルスタイルトランスファーを適用した。
また,テンポラリコヒーレンスの実現に関する研究や,すでに訓練済みの微調整モデルによる安定的な映像の実現について述べる。
さらに,一般的なディープニューラルネットワークアーキテクチャがモバイルデバイスの性能に与える影響についても,レイヤ数やフィルタ数について分析した。
実験部では,我々の研究成果をiosデバイスについて紹介するとともに,現在のandroidデバイスに存在する問題点と今後の可能性について考察する。
最終的に、iPhone 11 ProとiPhone 6sでテストされたスタイリゼーションの質的な結果と定量的なパフォーマンス結果を示す。
プレゼンテーションはAppleのApp Storeで利用可能なKunster - AR Art Video Makerアプリケーションに組み込まれている。
関連論文リスト
- Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Video-Based Rendering Techniques: A Survey [1.1207460340608923]
画像に記録された事象の3次元再構成は、コンピュータビジョンとコンピュータグラフィックスの間で共通の課題となっている。
レンダリングプロセス(ビデオベースのレンダリング、VBR)のインプットとしてビデオを使用することは、最近注目され始めている。
本稿では,このシナリオに適用可能な映像ベースのレンダリング技術と画像ベースの技術について述べる。
論文 参考訳(メタデータ) (2023-12-08T17:03:35Z) - INVE: Interactive Neural Video Editing [79.48055669064229]
対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。
我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。
LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
論文 参考訳(メタデータ) (2023-07-15T00:02:41Z) - Real-Time Under-Display Cameras Image Restoration and HDR on Mobile
Devices [81.61356052916855]
アンダーディスプレイカメラ(UDC)によって撮影された画像は、その前のスクリーンによって劣化する。
画像復元のためのディープラーニング手法は、キャプチャ画像の劣化を著しく低減することができる。
我々は,視覚的UDC画像復元とHDRのための軽量なモデルを提案し,スマートフォン上での様々な手法の性能と実行状況を比較したベンチマークを提供する。
論文 参考訳(メタデータ) (2022-11-25T11:46:57Z) - MobileCodec: Neural Inter-frame Video Compression on Mobile Devices [14.339890901963862]
商用携帯電話で動作する最初のフレーム間ニューラルビデオデコーダを示す。
商用携帯電話で動作する最初のフレーム間ニューラルビデオデコーダを示す。
論文 参考訳(メタデータ) (2022-07-18T01:20:18Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Real-Time Video Super-Resolution on Smartphones with Deep Learning,
Mobile AI 2021 Challenge: Report [135.69469815238193]
ビデオの超高解像度化は、ビデオ通信とストリーミングサービスの台頭により、モバイル関連で最も重要な問題の一つになっている。
この問題に対処するために、私たちは、エンドツーエンドのディープラーニングベースのビデオ超解解ソリューションを開発することを目的とした、最初のMobile AIチャレンジを紹介します。
提案したソリューションは、あらゆるモバイルGPUと完全に互換性があり、高忠実度の結果を示しながら、最大80FPSのHD解像度でビデオをアップスケールすることができる。
論文 参考訳(メタデータ) (2021-05-17T13:40:50Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Translating Video Recordings of Mobile App Usages into Replayable
Scenarios [24.992877070869177]
V2Sは、Androidアプリのビデオ録画を再生可能なシナリオに変換するための、軽量で自動化されたアプローチである。
機能を実行するユーザから収集した3,534個のGUIベースのアクションと,80以上のAndroidアプリのバグを再現した175本のビデオを含む,V2Sの広範な評価を行った。
論文 参考訳(メタデータ) (2020-05-18T20:11:36Z) - Deploying Image Deblurring across Mobile Devices: A Perspective of
Quality and Latency [11.572636762286775]
携帯型ネットワークアーキテクチャを探索し、モバイルデバイス間で品質と品質のトレードオフを改善する。
本稿では,レイテンシと画質の両方について詳細な解析を行うための総合的な実験と比較を行った。
私たちの知る限りでは、この論文はモバイルデバイス全体にわたるイメージデブラリングタスクのすべてのデプロイ問題に対処する最初の論文です。
論文 参考訳(メタデータ) (2020-04-27T06:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。