論文の概要: Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
- arxiv url: http://arxiv.org/abs/2407.20651v3
- Date: Wed, 2 Oct 2024 06:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:16:02.064877
- Title: Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
- Title(参考訳): 因果性誘導型自己適応表現による一般化型強化学習に向けて
- Authors: Yupei Yang, Biwei Huang, Fan Feng, Xinyue Wang, Shikui Tu, Lei Xu,
- Abstract要約: 汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
- 参考スコア(独自算出の注目度): 22.6449779859417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General intelligence requires quick adaption across tasks. While existing reinforcement learning (RL) methods have made progress in generalization, they typically assume only distribution changes between source and target domains. In this paper, we explore a wider range of scenarios where not only the distribution but also the environment spaces may change. For example, in the CoinRun environment, we train agents from easy levels and generalize them to difficulty levels where there could be new enemies that have never occurred before. To address this challenging setting, we introduce a causality-guided self-adaptive representation-based approach, called CSR, that equips the agent to generalize effectively across tasks with evolving dynamics. Specifically, we employ causal representation learning to characterize the latent causal variables within the RL system. Such compact causal representations uncover the structural relationships among variables, enabling the agent to autonomously determine whether changes in the environment stem from distribution shifts or variations in space, and to precisely locate these changes. We then devise a three-step strategy to fine-tune the causal model under different scenarios accordingly. Empirical experiments show that CSR efficiently adapts to the target domains with only a few samples and outperforms state-of-the-art baselines on a wide range of scenarios, including our simulated environments, CartPole, CoinRun and Atari games.
- Abstract(参考訳): 汎用インテリジェンスには、タスク間の迅速な適応が必要です。
既存の強化学習(RL)法は一般化に進展したが、典型的にはソースとターゲットドメイン間の分布変化のみを仮定する。
本稿では,分布だけでなく,環境空間も変化するシナリオについて検討する。
例えば、CoinRun環境では、エージェントを簡単なレベルからトレーニングし、それらを今までにない新しい敵が存在する難易度に一般化します。
この課題に対処するために、我々はCSRと呼ばれる因果性誘導型自己適応表現に基づくアプローチを導入し、エージェントに動的に進化するタスクを効果的に一般化させる。
具体的には、RLシステム内の潜伏因果変数を特徴付けるために因果表現学習を用いる。
このようなコンパクトな因果表現は変数間の構造的関係を解明し、エージェントが環境の変化が空間の分布変化や変動に由来するかどうかを自律的に決定し、これらの変化を正確に特定することを可能にする。
次に、異なるシナリオの下で因果モデルを微調整する3段階の戦略を考案する。
実証実験により、CSRは少数のサンプルでターゲットドメインに効率よく適応し、シミュレーション環境、CartPole、CoinRun、Atariゲームなど、幅広いシナリオで最先端のベースラインを上回ります。
関連論文リスト
- DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - From Big to Small: Adaptive Learning to Partial-Set Domains [94.92635970450578]
ドメイン適応は、分布シフト中のラベル付きソースドメインからラベルなしターゲットドメインへの知識獲得と普及を目標とする。
近年の進歩は、大規模の深層学習モデルにより、小規模の下流の多様な課題に取り組むための豊富な知識が得られていることを示している。
本稿では,学習パラダイムである部分領域適応(Partial Domain Adaptation, PDA)を紹介する。
論文 参考訳(メタデータ) (2022-03-14T07:02:45Z) - AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning [18.269412736181852]
我々はAdaRLと呼ばれる適応RLの原理的フレームワークを提案し、ドメイン間の変化に確実に適応する。
AdaRLは、ターゲットドメインでさらなるポリシー最適化を行うことなく、少数のサンプルでポリシーを適応できることを示す。
本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化をもたらすための一連の実験を通じて有効性を示す。
論文 参考訳(メタデータ) (2021-07-06T16:56:25Z) - LEADS: Learning Dynamical Systems that Generalize Across Environments [12.024388048406587]
我々は、モデル一般化を改善するために、既知の環境間の共通点と相違点を活用する新しいフレームワークであるLEADSを提案する。
環境に依存したデータから抽出した知識を活用でき、既知の環境と新しい環境の両方の一般化を向上できることを示す。
論文 参考訳(メタデータ) (2021-06-08T17:28:19Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。