論文の概要: Weighted Entropy Modification for Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2011.09083v1
- Date: Wed, 18 Nov 2020 04:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 05:15:39.209534
- Title: Weighted Entropy Modification for Soft Actor-Critic
- Title(参考訳): ソフトアクター臨界に対する重み付きエントロピー修正
- Authors: Yizhou Zhao, Song-Chun Zhu
- Abstract要約: 我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。
本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 95.37322316673617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We generalize the existing principle of the maximum Shannon entropy in
reinforcement learning (RL) to weighted entropy by characterizing the
state-action pairs with some qualitative weights, which can be connected with
prior knowledge, experience replay, and evolution process of the policy. We
propose an algorithm motivated for self-balancing exploration with the
introduced weight function, which leads to state-of-the-art performance on
Mujoco tasks despite its simplicity in implementation.
- Abstract(参考訳): 強化学習 (rl) における最大シャノンエントロピーの原理を, 事前知識, 経験再生, 政策の進化過程と結びついた定性的な重み付き状態-作用対を特徴付けることによって, 重み付きエントロピーに一般化する。
本稿では,実装の単純さに拘わらず,ムジョコタスクの最先端性能をもたらす重み関数の導入による自己バランス探索を動機とするアルゴリズムを提案する。
関連論文リスト
- Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow [14.681645502417215]
エネルギーベース正規化フロー(EBFlow)を用いた新しいMaxEnt RLフレームワークを提案する。
このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。
提案手法は,広く採用されている代表ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-22T13:26:26Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Utilizing Prior Solutions for Reward Shaping and Composition in
Entropy-Regularized Reinforcement Learning [3.058685580689605]
エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。
エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。
次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。
論文 参考訳(メタデータ) (2022-12-02T13:57:53Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。