Fugu-MT 論文翻訳(概要): Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting

論文の概要: Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting

arxiv url: http://arxiv.org/abs/2303.08331v1
Date: Wed, 15 Mar 2023 02:40:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 14:55:58.265391
Title: Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting
Title（参考訳）: 空間時間データオーバーフィッティングによる高画質・高能率ビデオ超解法の実現に向けて
Authors: Gen Li, Jie Ji, Minghai Qin, Wei Niu, Bin Ren, Fatemeh Afghah, Linke Guo, Xiaolong Ma
Abstract要約: 高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。空間時間情報を利用して、映像をチャンクに正確に分割し、チャンクの個数とモデルサイズを最小に抑える。市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
参考スコア（独自算出の注目度）: 27.302681897961588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As deep convolutional neural networks (DNNs) are widely used in various fields of computer vision, leveraging the overfitting ability of the DNN to achieve video resolution upscaling has become a new trend in the modern video delivery system. By dividing videos into chunks and overfitting each chunk with a super-resolution model, the server encodes videos before transmitting them to the clients, thus achieving better video quality and transmission efficiency. However, a large number of chunks are expected to ensure good overfitting quality, which substantially increases the storage and consumes more bandwidth resources for data transmission. On the other hand, decreasing the number of chunks through training optimization techniques usually requires high model capacity, which significantly slows down execution speed. To reconcile such, we propose a novel method for high-quality and efficient video resolution upscaling tasks, which leverages the spatial-temporal information to accurately divide video into chunks, thus keeping the number of chunks as well as the model size to minimum. Additionally, we advance our method into a single overfitting model by a data-aware joint training technique, which further reduces the storage requirement with negligible quality drop. We deploy our models on an off-the-shelf mobile phone, and experimental results show that our method achieves real-time video super-resolution with high video quality. Compared with the state-of-the-art, our method achieves 28 fps streaming speed with 41.6 PSNR, which is 14$\times$ faster and 2.29 dB better in the live video resolution upscaling tasks. Our codes are available at: https://github.com/coulsonlee/STDO-CVPR2023.git
Abstract（参考訳）: 深層畳み込みニューラルネットワーク(deep convolutional neural network, dnns)は,コンピュータビジョンのさまざまな分野で広く使用されているため,dnnによるビデオ解像度向上能力の活用が,現代の映像配信システムにおいて新たなトレンドとなっている。ビデオをチャンクに分割し、各チャンクを超高解像度モデルでオーバーフィットさせることで、サーバはビデオをクライアントに送信する前にエンコードする。しかし、大量のチャンクが良いオーバーフィッティング品質を保証することが期待され、ストレージを大幅に増加させ、データ転送により多くの帯域幅リソースを消費する。一方で、トレーニング最適化技術によるチャンク数の減少は通常、高いモデルキャパシティを必要とするため、実行速度が大幅に低下する。そこで本稿では,空間的時間的情報を利用して映像をチャンクに正確に分割し,チャンク数とモデルサイズを最小限に抑える,高品質で効率的な映像解像度アップスケーリングタスクのための新しい手法を提案する。さらに,本手法をデータ認識合同学習手法により,単一のオーバーフィッティングモデルに進化させ,品質低下によるストレージ要件の低減を図っている。市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することを示す。 41.6 PSNRで28fpsのストリーミング速度を実現し、ライブビデオ解像度アップスケールタスクでは14$\times$と2.29dBの高速化を実現した。私たちのコードは、https://github.com/coulsonlee/STDO-CVPR2023.gitで利用可能です。

関連論文リスト

Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文参考訳（メタデータ） (2025-07-03T17:59:54Z)
SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation [26.045123066151838]
SRDiffusionは、大小モデルの協調を利用して推論コストを削減する新しいフレームワークである。提案手法は,既存のアクセラレーション戦略の新たな方向性として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-25T13:58:52Z)
EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文参考訳（メタデータ） (2024-11-25T12:01:57Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。 CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文参考訳（メタデータ） (2024-03-21T05:48:48Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled Convolutions [32.85522513271578]
リアルタイム性能を実現するために,高速かつ軽量な超解像ネットワークを提案する。超解像における分割・畳み込みの応用を解析することにより、入力特徴に応じて畳み込みカーネルを適応できる組込み畳み込みを提案する。 NTIRE 2023 Real-Time Super-Resolution - Track 1で優勝した。
論文参考訳（メタデータ） (2023-05-05T09:33:34Z)
HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文参考訳（メタデータ） (2023-04-05T17:55:04Z)
Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文参考訳（メタデータ） (2022-01-31T18:56:04Z)
Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文参考訳（メタデータ） (2021-08-18T15:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。