論文の概要: Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting
- arxiv url: http://arxiv.org/abs/2303.08331v1
- Date: Wed, 15 Mar 2023 02:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:55:58.265391
- Title: Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting
- Title(参考訳): 空間時間データオーバーフィッティングによる高画質・高能率ビデオ超解法の実現に向けて
- Authors: Gen Li, Jie Ji, Minghai Qin, Wei Niu, Bin Ren, Fatemeh Afghah, Linke
Guo, Xiaolong Ma
- Abstract要約: 高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
空間時間情報を利用して、映像をチャンクに正確に分割し、チャンクの個数とモデルサイズを最小に抑える。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
- 参考スコア(独自算出の注目度): 27.302681897961588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep convolutional neural networks (DNNs) are widely used in various
fields of computer vision, leveraging the overfitting ability of the DNN to
achieve video resolution upscaling has become a new trend in the modern video
delivery system. By dividing videos into chunks and overfitting each chunk with
a super-resolution model, the server encodes videos before transmitting them to
the clients, thus achieving better video quality and transmission efficiency.
However, a large number of chunks are expected to ensure good overfitting
quality, which substantially increases the storage and consumes more bandwidth
resources for data transmission. On the other hand, decreasing the number of
chunks through training optimization techniques usually requires high model
capacity, which significantly slows down execution speed. To reconcile such, we
propose a novel method for high-quality and efficient video resolution
upscaling tasks, which leverages the spatial-temporal information to accurately
divide video into chunks, thus keeping the number of chunks as well as the
model size to minimum. Additionally, we advance our method into a single
overfitting model by a data-aware joint training technique, which further
reduces the storage requirement with negligible quality drop. We deploy our
models on an off-the-shelf mobile phone, and experimental results show that our
method achieves real-time video super-resolution with high video quality.
Compared with the state-of-the-art, our method achieves 28 fps streaming speed
with 41.6 PSNR, which is 14$\times$ faster and 2.29 dB better in the live video
resolution upscaling tasks. Our codes are available at:
https://github.com/coulsonlee/STDO-CVPR2023.git
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(deep convolutional neural network, dnns)は,コンピュータビジョンのさまざまな分野で広く使用されているため,dnnによるビデオ解像度向上能力の活用が,現代の映像配信システムにおいて新たなトレンドとなっている。
ビデオをチャンクに分割し、各チャンクを超高解像度モデルでオーバーフィットさせることで、サーバはビデオをクライアントに送信する前にエンコードする。
しかし、大量のチャンクが良いオーバーフィッティング品質を保証することが期待され、ストレージを大幅に増加させ、データ転送により多くの帯域幅リソースを消費する。
一方で、トレーニング最適化技術によるチャンク数の減少は通常、高いモデルキャパシティを必要とするため、実行速度が大幅に低下する。
そこで本稿では,空間的時間的情報を利用して映像をチャンクに正確に分割し,チャンク数とモデルサイズを最小限に抑える,高品質で効率的な映像解像度アップスケーリングタスクのための新しい手法を提案する。
さらに,本手法をデータ認識合同学習手法により,単一のオーバーフィッティングモデルに進化させ,品質低下によるストレージ要件の低減を図っている。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することを示す。
41.6 PSNRで28fpsのストリーミング速度を実現し、ライブビデオ解像度アップスケールタスクでは14$\times$と2.29dBの高速化を実現した。
私たちのコードは、https://github.com/coulsonlee/STDO-CVPR2023.gitで利用可能です。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled
Convolutions [32.85522513271578]
リアルタイム性能を実現するために,高速かつ軽量な超解像ネットワークを提案する。
超解像における分割・畳み込みの応用を解析することにより、入力特徴に応じて畳み込みカーネルを適応できる組込み畳み込みを提案する。
NTIRE 2023 Real-Time Super-Resolution - Track 1で優勝した。
論文 参考訳(メタデータ) (2023-05-05T09:33:34Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Online Streaming Video Super-Resolution with Convolutional Look-Up Table [26.628925884353674]
本稿では,オンライン・ストリーミング・ビデオ・スーパーレゾリューションの稀な問題設定に焦点を当てる。
LDV-WebRTCと呼ばれる新しいベンチマークデータセットは、現実世界のオンラインストリーミングシステムに基づいて構築されている。
そこで我々は, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて, 異なる劣化に対処する, 実験用LUTモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-01T08:54:56Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。