論文の概要: A Dual-Critic Reinforcement Learning Framework for Frame-level Bit
Allocation in HEVC/H.265
- arxiv url: http://arxiv.org/abs/2104.01735v1
- Date: Mon, 5 Apr 2021 01:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 00:25:59.787271
- Title: A Dual-Critic Reinforcement Learning Framework for Frame-level Bit
Allocation in HEVC/H.265
- Title(参考訳): HEVC/H.265におけるフレームレベルビット割り当てのための二重臨界強化学習フレームワーク
- Authors: Yung-Han Ho, Guo-Lun Jin, Yun Liang, Wen-Hsiao Peng, Xiaobo Li
- Abstract要約: 本論文では、HEVC/H.265におけるフレームレベルビット割り当ての問題に対処するためのデュアルクリティカル強化学習フレームワークを提案する。
目的は、レート制約の下で画像群の歪みを最小化することである。
一般的なデータセットにおける実験結果から, x265 のビット割当方式よりも優れていた。
- 参考スコア(独自算出の注目度): 14.671873340551493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a dual-critic reinforcement learning (RL) framework to
address the problem of frame-level bit allocation in HEVC/H.265. The objective
is to minimize the distortion of a group of pictures (GOP) under a rate
constraint. Previous RL-based methods tackle such a constrained optimization
problem by maximizing a single reward function that often combines a distortion
and a rate reward. However, the way how these rewards are combined is usually
ad hoc and may not generalize well to various coding conditions and video
sequences. To overcome this issue, we adapt the deep deterministic policy
gradient (DDPG) reinforcement learning algorithm for use with two critics, with
one learning to predict the distortion reward and the other the rate reward. In
particular, the distortion critic works to update the agent when the rate
constraint is satisfied. By contrast, the rate critic makes the rate constraint
a priority when the agent goes over the bit budget. Experimental results on
commonly used datasets show that our method outperforms the bit allocation
scheme in x265 and the single-critic baseline by a significant margin in terms
of rate-distortion performance while offering fairly precise rate control.
- Abstract(参考訳): 本稿では,HEVC/H.265におけるフレームレベルのビット割り当ての問題に対処する,二重批判強化学習(RL)フレームワークを提案する。
目的は、レート制約の下で画像群(GOP)の歪みを最小限にすることである。
従来のRL法では、歪みとレート報酬を結合する単一の報酬関数を最大化することで、そのような制約付き最適化問題に対処していた。
しかし、これらの報酬を組み合わせる方法は通常アドホックであり、様々なコーディング条件やビデオシーケンスにうまく適用できない。
この問題を克服するために,我々は2つの批判者に対して,ddpg(deep deterministic policy gradient)強化学習アルゴリズムを適用し,一方は歪み報酬を予測し,もう一方はレート報酬を予測した。
特に、歪み批評家は、レート制約が満たされたときにエージェントを更新する。
対照的に、レート評論家は、エージェントがビット予算を超えると、レート制約を優先させる。
一般的なデータセットを用いた実験では、x265のビット割り当て方式とシングルクリティックベースラインを、かなり正確なレート制御を提供しながら、レート分散性能の点でかなりのマージンで上回った。
関連論文リスト
- Fast-OMRA: Fast Online Motion Resolution Adaptation for Neural B-Frame Coding [5.815424522820603]
階層的時間予測を持つほとんどの学習されたBフレームコーデックは、トレーニングとテストに使用されるGOP(Group-of-Pictures)サイズの違いによって生じるドメインシフトの問題に悩まされる。
この領域シフト問題を解決する効果的な戦略の1つは、モーション推定のためにビデオフレームをダウンサンプルすることである。
この研究は、ダウンサンプリング係数を決定するための軽量な分類器を導入している。
論文 参考訳(メタデータ) (2024-10-29T05:57:32Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Neural Frank-Wolfe Policy Optimization for Region-of-Interest
Intra-Frame Coding with HEVC/H.265 [17.304786769678284]
本稿では,CTUレベルのビット割り当てを動作制約付き強化学習問題として定式化するために,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々は、レート評論家を利用して、実行可能なアクションのセットを予測する。この実現可能なセットでは、アクターを更新し、レート制約を受けるROI強調画像の品質を最大化するために歪み批評家を起動する。
論文 参考訳(メタデータ) (2022-09-27T07:26:35Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation
in HEVC/H.265 through Frank-Wolfe Policy Optimization [14.653664215192398]
本稿では,フレームレベルのビット割り当てを動作制約付き強化学習問題として定式化する際に,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々のNFWPOベースのモデルは、単一批判法と二重批判法の両方より優れている。
また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。
論文 参考訳(メタデータ) (2022-03-10T02:56:03Z) - On Perceptual Lossy Compression: The Cost of Perceptual Reconstruction
and An Optimal Training Framework [12.13586501618741]
完全知覚品質を達成するためのコストは、達成可能なMSE歪みの2倍であることを示す。
完全知覚制約下で最小のMSE歪みを与えられたビットレートで達成するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-05T02:53:38Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。