論文の概要: Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation
- arxiv url: http://arxiv.org/abs/2108.08202v1
- Date: Wed, 18 Aug 2021 15:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:28:59.773484
- Title: Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation
- Title(参考訳): データオーバーフィット:コンテンツ認識機能変調によるコンパクトなニューラルビデオ配信
- Authors: Jiaming Liu, Ming Lu, Kaixin Chen, Xiaoqi Li, Shizun Wang, Zhaoqing
Wang, Enhua Wu, Yurong Chen, Chuang Zhang, Ming Wu
- Abstract要約: ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
- 参考スコア(独自算出の注目度): 38.889823516049056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internet video delivery has undergone a tremendous explosion of growth over
the past few years. However, the quality of video delivery system greatly
depends on the Internet bandwidth. Deep Neural Networks (DNNs) are utilized to
improve the quality of video delivery recently. These methods divide a video
into chunks, and stream LR video chunks and corresponding content-aware models
to the client. The client runs the inference of models to super-resolve the LR
chunks. Consequently, a large number of models are streamed in order to deliver
a video. In this paper, we first carefully study the relation between models of
different chunks, then we tactfully design a joint training framework along
with the Content-aware Feature Modulation (CaFM) layer to compress these models
for neural video delivery. {\bf With our method, each video chunk only requires
less than $1\% $ of original parameters to be streamed, achieving even better
SR performance.} We conduct extensive experiments across various SR backbones,
video time length, and scaling factors to demonstrate the advantages of our
method. Besides, our method can be also viewed as a new approach of video
coding. Our primary experiments achieve better video quality compared with the
commercial H.264 and H.265 standard under the same storage cost, showing the
great potential of the proposed method. Code is available
at:\url{https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021}
- Abstract(参考訳): インターネットビデオ配信は、ここ数年で飛躍的な成長を遂げている。
しかし,映像配信システムの品質はインターネットの帯域幅に大きく依存する。
近年,ディープニューラルネットワーク(dnn)がビデオ配信の品質向上に利用されている。
これらの方法は、ビデオをチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
クライアントはLRチャンクを超解き明かすためにモデルの推論を実行する。
その結果、ビデオを配信するために多数のモデルがストリーミングされる。
本稿では,まず,異なるチャンクのモデル間の関係を慎重に研究し,そのモデルをニューラルビデオ配信のために圧縮するために,コンテンツ対応特徴変調(CaFM)レイヤとともに協調トレーニングフレームワークを設計する。
{\bf 我々の方法では、各ビデオチャンクはストリーミングされる元のパラメータの1\%未満しか必要とせず、より優れたSR性能を達成する。
本手法の利点を示すため,様々なSRバックボーン,ビデオ時間長,スケーリング因子について広範な実験を行った。
また,本手法はビデオ符号化の新たなアプローチと見なすこともできる。
提案手法は,H.264規格とH.265規格を同一のストレージコストで比較した場合,ビデオ品質が向上することを示す。
コードは以下の通り。\url{https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021}
関連論文リスト
- Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Reinforcement Learning -based Adaptation and Scheduling Methods for
Multi-source DASH [1.1971219484941955]
HTTP(DASH)上の動的適応ストリーミングは、最近ビデオストリーミングで広く使われている。
マルチソースストリーミングでは、ネットワークパスの異なる条件のために、ビデオチャンクが順番に到着する可能性がある。
本稿では,複数のソースからストリーミングする2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T06:47:12Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Efficient Meta-Tuning for Content-aware Neural Video Delivery [40.3731358963689]
計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T06:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。