Fugu-MT 論文翻訳(概要): RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning

論文の概要: RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.01972v1
Date: Sun, 4 Aug 2024 09:26:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 15:45:07.026933
Title: RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
Title（参考訳）: RVI-SAC: オフ・ポリシックな深層強化学習
Authors: Yukinari Hisaki, Isao Ono,
Abstract要約: RVI-SACは、平均報酬基準に対して、最先端のオフポリチックDRL(Soft Actor-Critic, SAC)法の拡張である。本提案は,(1)RVIQ-learningに基づく批判的更新,(2)平均報酬ソフトポリシー改善定理によって導入されたアクター更新,(3)平均報酬強化学習が終了するタスクに適用可能なリセットコストの自動調整からなる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium's Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods.
Abstract（参考訳）: 本稿では,平均報酬基準を用いた非政治的深層強化学習(DRL)手法を提案する。既存のDRL手法の多くは割引報酬基準を採用しているが、これは継続タスクにおけるトレーニング目標とパフォーマンス指標の相違につながる可能性があり、平均報酬基準が推奨される選択肢となる。我々は、平均報酬基準に、最先端のオフポリチックDRL法であるSAC(Soft Actor-Critic)の拡張であるRVI-SACを導入する。本提案は,(1)RVIQ-learningに基づく批判的更新,(2)平均報酬ソフトポリシー改善定理によって導入されたアクター更新,(3)平均報酬強化学習が終了するタスクに適用可能なリセットコストの自動調整からなる。本稿では,ロコモーションタスクのサブセットであるGymnasiumのMujocoタスクに適用し,既存の手法と比較して,RVI-SACが競合性能を示すことを示す。

関連論文リスト

Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文参考訳（メタデータ） (2025-02-03T15:43:48Z)
Average Reward Reinforcement Learning for Wireless Radio Resource Management [14.111492091794712]
本稿では、割引報酬RLの定式化と無線ネットワーク最適化の未公表目標とのミスマッチについて述べる。 ARO SAC (Average Reward Off Policy Soft Actor Critic) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T03:45:14Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
A State Augmentation based approach to Reinforcement Learning from Human Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-17T07:10:50Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文参考訳（メタデータ） (2021-12-02T00:51:17Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
On-Policy Deep Reinforcement Learning for the Average-Reward Criterion [9.343119070691735]
平均回帰型政治強化学習(RL)のための理論とアルゴリズムを開発する。特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
論文参考訳（メタデータ） (2021-06-14T12:12:09Z)
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文参考訳（メタデータ） (2020-08-18T07:17:53Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文参考訳（メタデータ） (2020-07-03T05:06:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。