論文の概要: Neural Frank-Wolfe Policy Optimization for Region-of-Interest
Intra-Frame Coding with HEVC/H.265
- arxiv url: http://arxiv.org/abs/2209.13210v1
- Date: Tue, 27 Sep 2022 07:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:17:25.719569
- Title: Neural Frank-Wolfe Policy Optimization for Region-of-Interest
Intra-Frame Coding with HEVC/H.265
- Title(参考訳): HEVC/H.265を用いた関心領域内符号化のためのニューラルフランクウルフポリシー最適化
- Authors: Yung-Han Ho, Chia-Hao Kao, Wen-Hsiao Peng, Ping-Chun Hsieh
- Abstract要約: 本稿では,CTUレベルのビット割り当てを動作制約付き強化学習問題として定式化するために,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々は、レート評論家を利用して、実行可能なアクションのセットを予測する。この実現可能なセットでは、アクターを更新し、レート制約を受けるROI強調画像の品質を最大化するために歪み批評家を起動する。
- 参考スコア(独自算出の注目度): 17.304786769678284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a reinforcement learning (RL) framework that utilizes
Frank-Wolfe policy optimization to solve Coding-Tree-Unit (CTU) bit allocation
for Region-of-Interest (ROI) intra-frame coding. Most previous RL-based methods
employ the single-critic design, where the rewards for distortion minimization
and rate regularization are weighted by an empirically chosen hyper-parameter.
Recently, the dual-critic design is proposed to update the actor by alternating
the rate and distortion critics. However, its convergence is not guaranteed. To
address these issues, we introduce Neural Frank-Wolfe Policy Optimization
(NFWPO) in formulating the CTU-level bit allocation as an action-constrained RL
problem. In this new framework, we exploit a rate critic to predict a feasible
set of actions. With this feasible set, a distortion critic is invoked to
update the actor to maximize the ROI-weighted image quality subject to a rate
constraint. Experimental results produced with x265 confirm the superiority of
the proposed method to the other baselines.
- Abstract(参考訳): 本稿では、Frank-Wolfeポリシーの最適化を利用して、ROI(Regional-of-Interest)フレーム内符号化のためのCTU(Coding-Tree-Unit)ビット割り当てを解決する強化学習(RL)フレームワークを提案する。
従来のRL法では、歪み最小化とレート正規化の報酬は、経験的に選択されたハイパーパラメータによって重み付けされる。
近年,レートと歪みの批判を交互に修正するデュアル・クリティック・デザインが提案されている。
しかし、その収束は保証されていない。
これらの問題に対処するために、CTUレベルのビット割り当てをアクション制約付きRL問題として定式化する際に、Neural Frank-Wolfe Policy Optimization (NFWPO)を導入する。
この新たなフレームワークでは、レート批判を利用して実行可能なアクションのセットを予測する。
この実現可能なセットにより、歪み批評家を起動してアクターを更新し、レート制約を受けるROI強調画像品質を最大化する。
x265による実験結果から,提案手法の他のベースラインに対する優位性が確認された。
関連論文リスト
- e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields [54.8553158441296]
統一された点ベース表現に基づく新しい視覚的ローカライゼーションフレームワーク PNeRFLoc を提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点をマッチングして初期ポーズ推定をサポートする。
一方、レンダリングベースの最適化を用いた新しいビュー合成によるポーズ改善も実現している。
論文 参考訳(メタデータ) (2023-12-17T08:30:00Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation
in HEVC/H.265 through Frank-Wolfe Policy Optimization [14.653664215192398]
本稿では,フレームレベルのビット割り当てを動作制約付き強化学習問題として定式化する際に,NFWPO(Neural Frank-Wolfe Policy Optimization)を導入する。
我々のNFWPOベースのモデルは、単一批判法と二重批判法の両方より優れている。
また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。
論文 参考訳(メタデータ) (2022-03-10T02:56:03Z) - Interpretable Neural Networks with Frank-Wolfe: Sparse Relevance Maps
and Relevance Orderings [22.586474627159287]
RDE(Rate-Distortion Explanations)法を改訂することで、関係マップの空間性を正確に制御することができる。
フランク=ウルフアルゴリズムのいくつかの決定論的・決定論的変種とそのRDEに対する有効性を示す。
論文 参考訳(メタデータ) (2021-10-15T14:04:57Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - A Dual-Critic Reinforcement Learning Framework for Frame-level Bit
Allocation in HEVC/H.265 [14.671873340551493]
本論文では、HEVC/H.265におけるフレームレベルビット割り当ての問題に対処するためのデュアルクリティカル強化学習フレームワークを提案する。
目的は、レート制約の下で画像群の歪みを最小化することである。
一般的なデータセットにおける実験結果から, x265 のビット割当方式よりも優れていた。
論文 参考訳(メタデータ) (2021-04-05T01:26:52Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。