Fugu-MT 論文翻訳(概要): Efficient Meta-Tuning for Content-aware Neural Video Delivery

論文の概要: Efficient Meta-Tuning for Content-aware Neural Video Delivery

arxiv url: http://arxiv.org/abs/2207.09691v1
Date: Wed, 20 Jul 2022 06:47:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-21 14:09:28.508380
Title: Efficient Meta-Tuning for Content-aware Neural Video Delivery
Title（参考訳）: コンテンツ対応ニューラルビデオ配信のための効果的なメタチューニング
Authors: Xiaoqi Li, Jiaming Liu, Shizun Wang, Cheng Lyu, Ming Lu, Yurong Chen, Anbang Yao, Yandong Guo, Shanghang Zhang
Abstract要約: 計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。 EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
参考スコア（独自算出の注目度）: 40.3731358963689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Deep Neural Networks (DNNs) are utilized to reduce the bandwidth and improve the quality of Internet video delivery. Existing methods train corresponding content-aware super-resolution (SR) model for each video chunk on the server, and stream low-resolution (LR) video chunks along with SR models to the client. Although they achieve promising results, the huge computational cost of network training limits their practical applications. In this paper, we present a method named Efficient Meta-Tuning (EMT) to reduce the computational cost. Instead of training from scratch, EMT adapts a meta-learned model to the first chunk of the input video. As for the following chunks, it fine-tunes the partial parameters selected by gradient masking of previous adapted model. In order to achieve further speedup for EMT, we propose a novel sampling strategy to extract the most challenging patches from video frames. The proposed strategy is highly efficient and brings negligible additional cost. Our method significantly reduces the computational cost and achieves even better performance, paving the way for applying neural video delivery techniques to practical applications. We conduct extensive experiments based on various efficient SR architectures, including ESPCN, SRCNN, FSRCNN and EDSR-1, demonstrating the generalization ability of our work. The code is released at \url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022}.
Abstract（参考訳）: 近年,Deep Neural Networks (DNN) は帯域幅の削減とインターネットビデオ配信の品質向上に利用されている。既存の方法は、サーバ上の各ビデオチャンクに対して対応するコンテンツ対応超解像(SR)モデルをトレーニングし、SRモデルとともに低解像度(LR)ビデオチャンクをクライアントにストリームする。彼らは有望な結果を得たが、ネットワークトレーニングの膨大な計算コストは実用的応用を制限する。本稿では,計算コストを削減するための効率的なメタチューニング(emt)手法を提案する。ゼロからトレーニングする代わりに、EMTはメタ学習モデルを入力ビデオの最初の部分に適用する。以下のチャンクについては、以前の適応モデルの勾配マスキングによって選択された部分パラメータを微調整する。 EMTのさらなる高速化を実現するため,ビデオフレームから最も困難なパッチを抽出する新しいサンプリング手法を提案する。提案された戦略は非常に効率的で、追加コストは無視できる。提案手法は計算コストを大幅に削減し,より優れた性能を実現し,実用的な応用にニューラルビデオ配信技術を適用した。 ESPCN, SRCNN, FSRCNN, EDSR-1など, 様々な効率的なSRアーキテクチャに基づく広範な実験を行い, その一般化能力を実証した。コードは \url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022} で公開されている。

関連論文リスト

EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文参考訳（メタデータ） (2024-11-25T12:01:57Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
Capturing Temporal Information in a Single Frame: Channel Sampling Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文参考訳（メタデータ） (2022-01-25T15:24:37Z)
Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文参考訳（メタデータ） (2021-08-18T15:34:11Z)
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-28T22:18:14Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文参考訳（メタデータ） (2020-02-20T12:07:44Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。