論文の概要: ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization
- arxiv url: http://arxiv.org/abs/2402.14528v3
- Date: Wed, 22 May 2024 04:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:38:52.682102
- Title: ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization
- Title(参考訳): ACE : 因果性を考慮したエントロピー規則化によるオフポリシィアクター批判
- Authors: Tianying Ji, Yongyuan Liang, Yan Zeng, Yu Luo, Guowei Xu, Jiawei Guo, Ruijie Zheng, Furong Huang, Fuchun Sun, Huazhe Xu,
- Abstract要約: 因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
- 参考スコア(独自算出の注目度): 52.5587113539404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The varying significance of distinct primitive behaviors during the policy learning process has been overlooked by prior model-free RL algorithms. Leveraging this insight, we explore the causal relationship between different action dimensions and rewards to evaluate the significance of various primitive behaviors during training. We introduce a causality-aware entropy term that effectively identifies and prioritizes actions with high potential impacts for efficient exploration. Furthermore, to prevent excessive focus on specific primitive behaviors, we analyze the gradient dormancy phenomenon and introduce a dormancy-guided reset mechanism to further enhance the efficacy of our method. Our proposed algorithm, ACE: Off-policy Actor-critic with Causality-aware Entropy regularization, demonstrates a substantial performance advantage across 29 diverse continuous control tasks spanning 7 domains compared to model-free RL baselines, which underscores the effectiveness, versatility, and efficient sample efficiency of our approach. Benchmark results and videos are available at https://ace-rl.github.io/.
- Abstract(参考訳): 政策学習過程における異なる原始的行動の異なる重要性は、以前のモデルフリーなRLアルゴリズムによって見過ごされてきた。
この知見を生かして、異なる行動次元と報酬の間の因果関係を探求し、訓練中の様々な原始的行動の重要性を評価する。
因果関係を意識したエントロピーという用語を導入し、効率的に探索するための潜在的影響の高いアクションを効果的に識別し、優先順位付けする。
さらに,特定の原始的行動に過度に焦点を合わせることを防ぐために,勾配休眠現象を解析し,休眠誘導リセット機構を導入し,本手法の有効性をさらに高める。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは、7つのドメインにまたがる29の異なる連続制御タスクに対して、モデルのないRLベースラインと比較して大きな性能上の優位性を示す。
ベンチマーク結果とビデオはhttps://ace-rl.github.io/.com/で公開されている。
関連論文リスト
- Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? [1.9116784879310031]
深層強化学習(RL)では、値関数はディープニューラルネットワークを用いて近似され、平均2乗誤差回帰目標を用いて訓練される。
近年の研究では、クロスエントロピー分類の目的を活かした代替手法が提案されている。
我々の研究は、オフラインのRLセットアップにおけるそのような置換の影響を実証的に調査することを目指している。
論文 参考訳(メタデータ) (2024-06-10T14:25:11Z) - Counterfactual Learning with Multioutput Deep Kernels [0.0]
本稿では,観測データを用いた反実的推論の課題に対処する。
本稿では、因果効果を推定し、適切にポリシーを学習する、対実的マルチタスクディープカーネルモデルの一般的なクラスを示す。
論文 参考訳(メタデータ) (2022-11-20T23:28:41Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery [88.97076030698433]
本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-01T00:36:29Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。