論文の概要: Dynamics Generalisation in Reinforcement Learning via Adaptive
Context-Aware Policies
- arxiv url: http://arxiv.org/abs/2310.16686v1
- Date: Wed, 25 Oct 2023 14:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:13:24.642621
- Title: Dynamics Generalisation in Reinforcement Learning via Adaptive
Context-Aware Policies
- Title(参考訳): 適応文脈対応政策による強化学習におけるダイナミクスの一般化
- Authors: Michael Beukman, Devon Jarvis, Richard Klein, Steven James, Benjamin
Rosman
- Abstract要約: 一般化を改善するために,行動学習に文脈をどのように組み込むべきかについて検討する。
ニューラルネットワークアーキテクチャであるDecision Adapterを導入し、アダプタモジュールの重みを生成し、コンテキスト情報に基づいてエージェントの動作を条件付ける。
決定適応器は以前に提案したアーキテクチャの有用な一般化であり、より優れた一般化性能をもたらすことを実証的に示す。
- 参考スコア(独自算出の注目度): 13.410372954752496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning has achieved remarkable successes in several
domains, its real-world application is limited due to many methods failing to
generalise to unfamiliar conditions. In this work, we consider the problem of
generalising to new transition dynamics, corresponding to cases in which the
environment's response to the agent's actions differs. For example, the
gravitational force exerted on a robot depends on its mass and changes the
robot's mobility. Consequently, in such cases, it is necessary to condition an
agent's actions on extrinsic state information and pertinent contextual
information reflecting how the environment responds. While the need for
context-sensitive policies has been established, the manner in which context is
incorporated architecturally has received less attention. Thus, in this work,
we present an investigation into how context information should be incorporated
into behaviour learning to improve generalisation. To this end, we introduce a
neural network architecture, the Decision Adapter, which generates the weights
of an adapter module and conditions the behaviour of an agent on the context
information. We show that the Decision Adapter is a useful generalisation of a
previously proposed architecture and empirically demonstrate that it results in
superior generalisation performance compared to previous approaches in several
environments. Beyond this, the Decision Adapter is more robust to irrelevant
distractor variables than several alternative methods.
- Abstract(参考訳): 強化学習はいくつかの分野で目覚ましい成功を収めてきたが、多くの方法が未知の条件に一般化できないため、実世界の応用は限られている。
本研究では,エージェントの行動に対する環境の応答が異なる場合に対応する新しい遷移ダイナミクスへの一般化の問題を考える。
例えば、ロボットに作用する重力は、その質量に依存し、ロボットの移動性を変化させる。
したがって、そのような場合、エージェントの動作を外部状態情報と環境の反応を反映した関連するコンテキスト情報に条件付ける必要がある。
コンテキストに敏感なポリシーの必要性が確立されている一方で、アーキテクチャ的にコンテキストを組み込む方法の注目度は低下している。
そこで本研究では,文脈情報を行動学習に組み込むことにより一般化を改善する方法について検討する。
そこで本研究では,ニューラルネットワークアーキテクチャであるdecision adapterを紹介し,アダプタモジュールの重みを生成し,コンテキスト情報に対するエージェントの振る舞いを条件とする。
決定適応器は以前に提案したアーキテクチャの有用な一般化であり,いくつかの環境における従来の手法に比べて優れた一般化性能を示す。
さらに、決定アダプタはいくつかの代替手法よりも無関係な散逸変数に対して堅牢である。
関連論文リスト
- Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Context-Aware Composition of Agent Policies by Markov Decision Process
Entity Embeddings and Agent Ensembles [1.124711723767572]
計算エージェントは生命の多くの領域で人間をサポートし、従って異質な文脈で見られる。
サービスを実行し、目標志向の行動を実行するためには、エージェントは事前の知識を必要とする。
異種コンテキストの表現を可能にする新しいシミュレーションベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-28T12:13:36Z) - Decomposed Mutual Information Optimization for Generalized Context in
Meta-Reinforcement Learning [35.87062321504049]
複数の共同創設者がトランジションのダイナミクスに影響を与える可能性があるため、意思決定の正確なコンテキストを推測することは難しい。
本稿では、文脈学習におけるDOMINO(Decomposed Mutual Information Optimization)の課題に対処する。
理論的分析により,DOMINOは,多元的課題による相互情報の過小評価を克服できることが示された。
論文 参考訳(メタデータ) (2022-10-09T09:44:23Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Adapting to Unseen Environments through Explicit Representation of
Context [16.8615211682877]
自律運転、インフラ管理、医療、金融といった分野に自律的なエージェントを配置するには、目に見えない状況に安全に適応する必要がある。
本稿では,コンテキストモジュールとスキルモジュールを併用する原則的アプローチを提案する。
Context+Skillアプローチは、以前は目に見えなかった影響のある環境において、はるかに堅牢な振る舞いをもたらす。
論文 参考訳(メタデータ) (2020-02-13T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。