論文の概要: Neural Rate Control for Video Encoding using Imitation Learning
- arxiv url: http://arxiv.org/abs/2012.05339v1
- Date: Wed, 9 Dec 2020 21:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:11:20.752139
- Title: Neural Rate Control for Video Encoding using Imitation Learning
- Title(参考訳): 模倣学習を用いたビデオ符号化のためのニューラルレート制御
- Authors: Hongzi Mao, Chenjie Gu, Miaosen Wang, Angie Chen, Nevena Lazic, Nir
Levine, Derek Pang, Rene Claus, Marisabel Hechtman, Ching-Han Chiang, Cheng
Chen, Jingning Han
- Abstract要約: ニューラルレート制御ポリシーの学習に模倣学習を適用します。
学習したポリシーはビデオ品質を犠牲にすることなく8.5%の中央値削減を達成している。
- 参考スコア(独自算出の注目度): 15.603639771786927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern video encoders, rate control is a critical component and has been
heavily engineered. It decides how many bits to spend to encode each frame, in
order to optimize the rate-distortion trade-off over all video frames. This is
a challenging constrained planning problem because of the complex dependency
among decisions for different video frames and the bitrate constraint defined
at the end of the episode.
We formulate the rate control problem as a Partially Observable Markov
Decision Process (POMDP), and apply imitation learning to learn a neural rate
control policy. We demonstrate that by learning from optimal video encoding
trajectories obtained through evolution strategies, our learned policy achieves
better encoding efficiency and has minimal constraint violation. In addition to
imitating the optimal actions, we find that additional auxiliary losses, data
augmentation/refinement and inference-time policy improvements are critical for
learning a good rate control policy. We evaluate the learned policy against the
rate control policy in libvpx, a widely adopted open source VP9 codec library,
in the two-pass variable bitrate (VBR) mode. We show that over a diverse set of
real-world videos, our learned policy achieves 8.5% median bitrate reduction
without sacrificing video quality.
- Abstract(参考訳): 現代のビデオエンコーダでは、レート制御は重要なコンポーネントであり、非常に設計されている。
各フレームのエンコードに費やすビット数を決定し、全てのビデオフレームに対するレートゆがみのトレードオフを最適化する。
これは、異なるビデオフレームの決定とエピソードの最後に定義されたビットレートの制約の間の複雑な依存関係のため、困難な制約付き計画問題である。
我々は、このレート制御問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化し、模倣学習を適用してニューラルレート制御ポリシーを学習する。
進化戦略によって得られた最適なビデオ符号化軌跡から学習することにより,我々は学習したポリシーにより符号化効率が向上し,制約違反を最小限に抑えることを実証する。
最適行動の模倣に加えて, 追加の補助的損失, データの増大・縮小, 推論時の政策改善が, 良好な利率制御政策の学習に不可欠であることが判明した。
広範に採用されているオープンソースのVP9コーデックライブラリlibvpxの2パス可変ビットレート(VBR)モードにおいて、レート制御ポリシーに対する学習ポリシーを評価する。
実世界のビデオの多様なセットにおいて、学習方針はビデオ品質を犠牲にすることなく8.5%の中央値ビットレート削減を実現している。
関連論文リスト
- Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。
私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。
我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-10T06:36:45Z) - Structured Reinforcement Learning for Media Streaming at the Wireless Edge [15.742424623905825]
メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。
ビデオストリーミング環境において,最適な意思決定のための学習ベースのポリシーを開発し,実証する。
論文 参考訳(メタデータ) (2024-04-10T19:25:51Z) - Rate-Perception Optimized Preprocessing for Video Coding [15.808458228130261]
本稿では,レート・ディストーション性能を向上させるために,レート・パーセプション最適化前処理(RPP)手法を提案する。
RPP法は非常にシンプルで効率的であり,ビデオエンコーディング,ストリーミング,デコードの設定に何ら変更を加える必要もない。
主観的視覚的品質テストでは、87%のユーザが、RPPで圧縮した動画を約12%圧縮するだけで、RPPで動画がより良く、あるいは同等であると考えている。
論文 参考訳(メタデータ) (2023-01-25T08:21:52Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - MuZero with Self-competition for Rate Control in VP9 Video Compression [31.57572275235357]
本稿では,ビデオ圧縮の課題に対する MuZero アルゴリズムの適用について述べる。
また, MuZero をベースとした速度制御により, 圧縮ビデオのサイズを6.28%削減し, 映像品質を同じレベルに向上させることを示す。
論文 参考訳(メタデータ) (2022-02-14T11:27:27Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文 参考訳(メタデータ) (2020-10-15T02:00:10Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。