論文の概要: Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference
- arxiv url: http://arxiv.org/abs/2201.00354v1
- Date: Sun, 2 Jan 2022 13:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 22:02:31.873461
- Title: Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference
- Title(参考訳): 因果認識rlに向けて : 状態的行動改善時間差
- Authors: Hao Sun
- Abstract要約: 本稿では,行動空間と課題報酬の因果関係を明らかにするために,主作用空間への介入を提案する。
状態依存型行動空間選択問題としてRLタスクの因果性探索を定式化し、2つの実用的なアルゴリズムを解として提案する。
- 参考スコア(独自算出の注目度): 4.089644783343521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although it is well known that exploration plays a key role in Reinforcement
Learning (RL), prevailing exploration strategies for continuous control tasks
in RL are mainly based on naive isotropic Gaussian noise regardless of the
causality relationship between action space and the task and consider all
dimensions of actions equally important. In this work, we propose to conduct
interventions on the primal action space to discover the causal relationship
between the action space and the task reward. We propose the method of
State-Wise Action Refined (SWAR), which addresses the issue of action space
redundancy and promote causality discovery in RL. We formulate causality
discovery in RL tasks as a state-dependent action space selection problem and
propose two practical algorithms as solutions. The first approach, TD-SWAR,
detects task-related actions during temporal difference learning, while the
second approach, Dyn-SWAR, reveals important actions through dynamic model
prediction. Empirically, both methods provide approaches to understand the
decisions made by RL agents and improve learning efficiency in action-redundant
tasks.
- Abstract(参考訳): 強化学習(RL)において探索が重要な役割を担っていることはよく知られているが、RLにおける連続制御タスクの探索戦略は、主に行動空間とタスクの因果関係によらず、ナイーブな等方的ガウスノイズに基づいており、行動のすべての次元が等しく重要である。
本研究では,行動空間と課題報酬の因果関係を明らかにするために,プライマルアクション空間上で介入を行うことを提案する。
本稿では, 行動空間冗長性の問題に対処し, RLにおける因果関係の発見を促進するための, SWAR (State-Wise Action Refined) 法を提案する。
状態依存型行動空間選択問題としてRLタスクの因果性探索を定式化し、2つの実用的なアルゴリズムを解として提案する。
第1のアプローチであるTD-SWARは時間差分学習中のタスク関連動作を検出し,第2のアプローチであるDyn-SWARは動的モデル予測を通じて重要な動作を明らかにする。
実証的に、どちらの手法もRLエージェントによる決定を理解し、アクション依存タスクにおける学習効率を向上させるためのアプローチを提供する。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions [92.05556163518999]
本稿では, テンソル分解を用いた大規模因子化行動空間における強化学習(RL)のための新しい解を提案する。
我々は,協調型マルチエージェント強化学習シナリオを模範として用いた。
論文 参考訳(メタデータ) (2021-10-27T15:49:52Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。