論文の概要: Actor Loss of Soft Actor Critic Explained
- arxiv url: http://arxiv.org/abs/2112.15568v1
- Date: Fri, 31 Dec 2021 17:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:02:45.062154
- Title: Actor Loss of Soft Actor Critic Explained
- Title(参考訳): ソフトアクター批判のアクター損失について
- Authors: Thibault Lahire
- Abstract要約: 本技術報告は,アクターのソフトアクター批評家の喪失と関連する勾配推定について述べるものである。
これは、理論的なアクターの損失から実際に実装された方程式まで、提示されたすべての方程式を導出するために必要な数学的背景を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report is devoted to explaining how the actor loss of soft
actor critic is obtained, as well as the associated gradient estimate. It gives
the necessary mathematical background to derive all the presented equations,
from the theoretical actor loss to the one implemented in practice. This
necessitates a comparison of the reparameterization trick used in soft actor
critic with the nabla log trick, which leads to open questions regarding the
most efficient method to use.
- Abstract(参考訳): 本技術報告は,アクターのソフトアクター批評家の喪失と関連する勾配推定について述べるものである。
これは、理論的なアクター損失から実際に実装された方程式まで、すべての表現方程式を導出するために必要な数学的背景を与える。
これは、ソフトアクタ批評家がnablaログトリックで使用する再パラメータ化トリックと比べる必要があり、最も効率的な方法に関する疑問が開かれた。
関連論文リスト
- Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Good Actors can come in Smaller Sizes: A Case Study on the Value of
Actor-Critic Asymmetry [47.312768123967025]
本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。
アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。
論文 参考訳(メタデータ) (2021-02-23T19:07:47Z) - Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。
相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文 参考訳(メタデータ) (2021-02-08T17:31:13Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。