論文の概要: Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation
- arxiv url: http://arxiv.org/abs/2501.14543v1
- Date: Fri, 24 Jan 2025 14:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:22.263556
- Title: Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation
- Title(参考訳): 因果効果推定による深層強化学習のための行動空間の削減
- Authors: Wenzhang Liu, Lianjun Jin, Lu Ren, Chaoxu Mu, Changyin Sun,
- Abstract要約: 本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
- 参考スコア(独自算出の注目度): 15.684669299728743
- License:
- Abstract: Intelligent decision-making within large and redundant action spaces remains challenging in deep reinforcement learning. Considering similar but ineffective actions at each step can lead to repetitive and unproductive trials. Existing methods attempt to improve agent exploration by reducing or penalizing redundant actions, yet they fail to provide quantitative and reliable evidence to determine redundancy. In this paper, we propose a method to improve exploration efficiency by estimating the causal effects of actions. Unlike prior methods, our approach offers quantitative results regarding the causality of actions for one-step transitions. We first pre-train an inverse dynamics model to serve as prior knowledge of the environment. Subsequently, we classify actions across the entire action space at each time step and estimate the causal effect of each action to suppress redundant actions during exploration. We provide a theoretical analysis to demonstrate the effectiveness of our method and present empirical results from simulations in environments with redundant actions to evaluate its performance. Our implementation is available at https://github.com/agi-brain/cee.git.
- Abstract(参考訳): 大規模かつ冗長な行動空間におけるインテリジェントな意思決定は、深い強化学習において依然として困難である。
各ステップで類似しているが非効率な行動を考えると、反復的かつ非生産的な試行につながる可能性がある。
既存の手法では、冗長な行為を減らしたり罰したりすることでエージェントの探索を改善しようとするが、冗長性を決定するための定量的かつ信頼性の高い証拠は得られなかった。
本稿では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
従来の手法とは異なり,本手法は1段階遷移に対する行動因果関係に関する定量的な結果を与える。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
その後、各ステップで行動空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、探索中の冗長なアクションを抑制する。
提案手法の有効性を実証するための理論的解析と,冗長な動作を伴う環境におけるシミュレーションによる実験結果の提示を行い,その性能評価を行う。
私たちの実装はhttps://github.com/agi-brain/cee.git.comで公開されています。
関連論文リスト
- State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Learning Uncertainty-Aware Temporally-Extended Actions [22.901453123868674]
我々は不確かさを意識した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
我々はGridworldとAtari 2600環境における実験を通してUTEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-08T06:32:06Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。