論文の概要: Efficient Meta-Tuning for Content-aware Neural Video Delivery
- arxiv url: http://arxiv.org/abs/2207.09691v1
- Date: Wed, 20 Jul 2022 06:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:09:28.508380
- Title: Efficient Meta-Tuning for Content-aware Neural Video Delivery
- Title(参考訳): コンテンツ対応ニューラルビデオ配信のための効果的なメタチューニング
- Authors: Xiaoqi Li, Jiaming Liu, Shizun Wang, Cheng Lyu, Ming Lu, Yurong Chen,
Anbang Yao, Yandong Guo, Shanghang Zhang
- Abstract要約: 計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 40.3731358963689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Deep Neural Networks (DNNs) are utilized to reduce the bandwidth
and improve the quality of Internet video delivery. Existing methods train
corresponding content-aware super-resolution (SR) model for each video chunk on
the server, and stream low-resolution (LR) video chunks along with SR models to
the client. Although they achieve promising results, the huge computational
cost of network training limits their practical applications. In this paper, we
present a method named Efficient Meta-Tuning (EMT) to reduce the computational
cost. Instead of training from scratch, EMT adapts a meta-learned model to the
first chunk of the input video. As for the following chunks, it fine-tunes the
partial parameters selected by gradient masking of previous adapted model. In
order to achieve further speedup for EMT, we propose a novel sampling strategy
to extract the most challenging patches from video frames. The proposed
strategy is highly efficient and brings negligible additional cost. Our method
significantly reduces the computational cost and achieves even better
performance, paving the way for applying neural video delivery techniques to
practical applications. We conduct extensive experiments based on various
efficient SR architectures, including ESPCN, SRCNN, FSRCNN and EDSR-1,
demonstrating the generalization ability of our work. The code is released at
\url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022}.
- Abstract(参考訳): 近年,Deep Neural Networks (DNN) は帯域幅の削減とインターネットビデオ配信の品質向上に利用されている。
既存の方法は、サーバ上の各ビデオチャンクに対して対応するコンテンツ対応超解像(SR)モデルをトレーニングし、SRモデルとともに低解像度(LR)ビデオチャンクをクライアントにストリームする。
彼らは有望な結果を得たが、ネットワークトレーニングの膨大な計算コストは実用的応用を制限する。
本稿では,計算コストを削減するための効率的なメタチューニング(emt)手法を提案する。
ゼロからトレーニングする代わりに、EMTはメタ学習モデルを入力ビデオの最初の部分に適用する。
以下のチャンクについては、以前の適応モデルの勾配マスキングによって選択された部分パラメータを微調整する。
EMTのさらなる高速化を実現するため,ビデオフレームから最も困難なパッチを抽出する新しいサンプリング手法を提案する。
提案された戦略は非常に効率的で、追加コストは無視できる。
提案手法は計算コストを大幅に削減し,より優れた性能を実現し,実用的な応用にニューラルビデオ配信技術を適用した。
ESPCN, SRCNN, FSRCNN, EDSR-1など, 様々な効率的なSRアーキテクチャに基づく広範な実験を行い, その一般化能力を実証した。
コードは \url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022} で公開されている。
関連論文リスト
- EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。
本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。
最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文 参考訳(メタデータ) (2024-11-25T12:01:57Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Capturing Temporal Information in a Single Frame: Channel Sampling
Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。
そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。
我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文 参考訳(メタデータ) (2022-01-25T15:24:37Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。