論文の概要: Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting
- arxiv url: http://arxiv.org/abs/2303.08331v1
- Date: Wed, 15 Mar 2023 02:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:55:58.265391
- Title: Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting
- Title(参考訳): 空間時間データオーバーフィッティングによる高画質・高能率ビデオ超解法の実現に向けて
- Authors: Gen Li, Jie Ji, Minghai Qin, Wei Niu, Bin Ren, Fatemeh Afghah, Linke
Guo, Xiaolong Ma
- Abstract要約: 高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
空間時間情報を利用して、映像をチャンクに正確に分割し、チャンクの個数とモデルサイズを最小に抑える。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
- 参考スコア(独自算出の注目度): 27.302681897961588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep convolutional neural networks (DNNs) are widely used in various
fields of computer vision, leveraging the overfitting ability of the DNN to
achieve video resolution upscaling has become a new trend in the modern video
delivery system. By dividing videos into chunks and overfitting each chunk with
a super-resolution model, the server encodes videos before transmitting them to
the clients, thus achieving better video quality and transmission efficiency.
However, a large number of chunks are expected to ensure good overfitting
quality, which substantially increases the storage and consumes more bandwidth
resources for data transmission. On the other hand, decreasing the number of
chunks through training optimization techniques usually requires high model
capacity, which significantly slows down execution speed. To reconcile such, we
propose a novel method for high-quality and efficient video resolution
upscaling tasks, which leverages the spatial-temporal information to accurately
divide video into chunks, thus keeping the number of chunks as well as the
model size to minimum. Additionally, we advance our method into a single
overfitting model by a data-aware joint training technique, which further
reduces the storage requirement with negligible quality drop. We deploy our
models on an off-the-shelf mobile phone, and experimental results show that our
method achieves real-time video super-resolution with high video quality.
Compared with the state-of-the-art, our method achieves 28 fps streaming speed
with 41.6 PSNR, which is 14$\times$ faster and 2.29 dB better in the live video
resolution upscaling tasks. Our codes are available at:
https://github.com/coulsonlee/STDO-CVPR2023.git
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(deep convolutional neural network, dnns)は,コンピュータビジョンのさまざまな分野で広く使用されているため,dnnによるビデオ解像度向上能力の活用が,現代の映像配信システムにおいて新たなトレンドとなっている。
ビデオをチャンクに分割し、各チャンクを超高解像度モデルでオーバーフィットさせることで、サーバはビデオをクライアントに送信する前にエンコードする。
しかし、大量のチャンクが良いオーバーフィッティング品質を保証することが期待され、ストレージを大幅に増加させ、データ転送により多くの帯域幅リソースを消費する。
一方で、トレーニング最適化技術によるチャンク数の減少は通常、高いモデルキャパシティを必要とするため、実行速度が大幅に低下する。
そこで本稿では,空間的時間的情報を利用して映像をチャンクに正確に分割し,チャンク数とモデルサイズを最小限に抑える,高品質で効率的な映像解像度アップスケーリングタスクのための新しい手法を提案する。
さらに,本手法をデータ認識合同学習手法により,単一のオーバーフィッティングモデルに進化させ,品質低下によるストレージ要件の低減を図っている。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することを示す。
41.6 PSNRで28fpsのストリーミング速度を実現し、ライブビデオ解像度アップスケールタスクでは14$\times$と2.29dBの高速化を実現した。
私たちのコードは、https://github.com/coulsonlee/STDO-CVPR2023.gitで利用可能です。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled
Convolutions [32.85522513271578]
リアルタイム性能を実現するために,高速かつ軽量な超解像ネットワークを提案する。
超解像における分割・畳み込みの応用を解析することにより、入力特徴に応じて畳み込みカーネルを適応できる組込み畳み込みを提案する。
NTIRE 2023 Real-Time Super-Resolution - Track 1で優勝した。
論文 参考訳(メタデータ) (2023-05-05T09:33:34Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Online Streaming Video Super-Resolution with Convolutional Look-Up Table [26.628925884353674]
本稿では,オンライン・ストリーミング・ビデオ・スーパーレゾリューションの稀な問題設定に焦点を当てる。
LDV-WebRTCと呼ばれる新しいベンチマークデータセットは、現実世界のオンラインストリーミングシステムに基づいて構築されている。
そこで我々は, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて, 異なる劣化に対処する, 実験用LUTモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-01T08:54:56Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Efficient Meta-Tuning for Content-aware Neural Video Delivery [40.3731358963689]
計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T06:47:10Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。