論文の概要: Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation
in HEVC/H.265 through Frank-Wolfe Policy Optimization
- arxiv url: http://arxiv.org/abs/2203.05127v1
- Date: Thu, 10 Mar 2022 02:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:33:18.840831
- Title: Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation
in HEVC/H.265 through Frank-Wolfe Policy Optimization
- Title(参考訳): フランクウルフ政策最適化によるHEVC/H.265におけるフレームレベルビット配置の動作制約強化学習
- Authors: Yung-Han Ho, Yun Liang, Chia-Hao Kao, Wen-Hsiao Peng
- Abstract要約: 本稿では,フレームレベルのビット割り当てを動作制約付き強化学習問題として定式化する際に,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々のNFWPOベースのモデルは、単一批判法と二重批判法の両方より優れている。
また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。
- 参考スコア(独自算出の注目度): 14.653664215192398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a reinforcement learning (RL) framework that leverages
Frank-Wolfe policy optimization to address frame-level bit allocation for
HEVC/H.265. Most previous RL-based approaches adopt the single-critic design,
which weights the rewards for distortion minimization and rate regularization
by an empirically chosen hyper-parameter. More recently, the dual-critic design
is proposed to update the actor network by alternating the rate and distortion
critics. However, the convergence of training is not guaranteed. To address
this issue, we introduce Neural Frank-Wolfe Policy Optimization (NFWPO) in
formulating the frame-level bit allocation as an action-constrained RL problem.
In this new framework, the rate critic serves to specify a feasible action set,
and the distortion critic updates the actor network towards maximizing the
reconstruction quality while conforming to the action constraint. Experimental
results show that when trained to optimize the video multi-method assessment
fusion (VMAF) metric, our NFWPO-based model outperforms both the single-critic
and the dual-critic methods. It also demonstrates comparable rate-distortion
performance to the 2-pass average bit rate control of x265.
- Abstract(参考訳): 本稿では, HEVC/H.265のフレームレベルビット割り当てにFrank-Wolfeポリシ最適化を利用する強化学習(RL)フレームワークを提案する。
以前のrlベースのアプローチでは、歪み最小化とレート正規化の報酬を経験的に選択したハイパーパラメータで重み付けするシングルクリティック設計を採用している。
最近では、アクターネットワークの更新のために、レートと歪みの批判を交互に行い、二重批判設計を提案する。
しかし、訓練の収束は保証されていない。
この問題に対処するために、フレームレベルのビット割り当てをアクション制約付きRL問題として定式化する際に、Neural Frank-Wolfe Policy Optimization (NFWPO)を導入する。
この新たな枠組みでは、レート批評家は実行可能なアクションセットを特定するのに役立ち、歪み批評家はアクタネットワークを更新して、アクション制約に準拠しながらコンストラクション品質を最大化する。
実験結果から,ビデオマルチメソッド評価融合(VMAF)メトリックを最適化する訓練を行った場合,NFWPOに基づくモデルは,単一批判法と二重批判法の両方に優れることがわかった。
また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Neural Frank-Wolfe Policy Optimization for Region-of-Interest
Intra-Frame Coding with HEVC/H.265 [17.304786769678284]
本稿では,CTUレベルのビット割り当てを動作制約付き強化学習問題として定式化するために,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々は、レート評論家を利用して、実行可能なアクションのセットを予測する。この実現可能なセットでは、アクターを更新し、レート制約を受けるROI強調画像の品質を最大化するために歪み批評家を起動する。
論文 参考訳(メタデータ) (2022-09-27T07:26:35Z) - Compression-aware Training of Neural Networks using Frank-Wolfe [27.69586583737247]
本稿では,フィルタプルーニングと低ランク行列分解に対するロバスト性を誘導しながら,高い性能のソリューションへの収束を促すフレームワークを提案する。
提案手法は,従来の圧縮対応手法よりも優れており,低ランク行列分解の場合,核ノルム正規化に基づく手法よりも計算資源が大幅に少ない。
論文 参考訳(メタデータ) (2022-05-24T09:29:02Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Dual-Critic Reinforcement Learning Framework for Frame-level Bit
Allocation in HEVC/H.265 [14.671873340551493]
本論文では、HEVC/H.265におけるフレームレベルビット割り当ての問題に対処するためのデュアルクリティカル強化学習フレームワークを提案する。
目的は、レート制約の下で画像群の歪みを最小化することである。
一般的なデータセットにおける実験結果から, x265 のビット割当方式よりも優れていた。
論文 参考訳(メタデータ) (2021-04-05T01:26:52Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。