論文の概要: Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2405.16899v1
- Date: Mon, 27 May 2024 07:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:41:02.709250
- Title: Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents
- Title(参考訳): 適応型モデルに基づく強化学習エージェント構築のための部分モデル
- Authors: Safa Alver, Ali Rahimi-Kalahroudi, Doina Precup,
- Abstract要約: 部分モデルの概念的にシンプルなアイデアにより、深層モデルに基づくエージェントがこの課題を克服できることを示す。
我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
- 参考スコア(独自算出の注目度): 37.604622216020765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neuroscience, one of the key behavioral tests for determining whether a subject of study exhibits model-based behavior is to study its adaptiveness to local changes in the environment. In reinforcement learning, however, recent studies have shown that modern model-based agents display poor adaptivity to such changes. The main reason for this is that modern agents are typically designed to improve sample efficiency in single task settings and thus do not take into account the challenges that can arise in other settings. In local adaptation settings, one particularly important challenge is in quickly building and maintaining a sufficiently accurate model after a local change. This is challenging for deep model-based agents as their models and replay buffers are monolithic structures lacking distribution shift handling capabilities. In this study, we show that the conceptually simple idea of partial models can allow deep model-based agents to overcome this challenge and thus allow for building locally adaptive model-based agents. By modeling the different parts of the state space through different models, the agent can not only maintain a model that is accurate across the state space, but it can also quickly adapt it in the presence of a local change in the environment. We demonstrate this by showing that the use of partial models in agents such as deep Dyna-Q, PlaNet and Dreamer can allow for them to effectively adapt to the local changes in their environments.
- Abstract(参考訳): 神経科学において、研究対象がモデルに基づく行動を示すかどうかを決定するための重要な行動テストの1つは、その環境の局所的な変化への適応性を研究することである。
しかし、強化学習においては、現代のモデルに基づくエージェントはそのような変化に対する適応性に乏しいことが最近の研究で示されている。
この主な理由は、現代のエージェントが単一のタスク設定におけるサンプル効率を改善するように設計されているため、他の設定で起こりうる課題を考慮していないからである。
局所的な適応設定では、特に重要な課題は、局所的な変化の後、十分に正確なモデルを構築し維持することである。
モデルとリプレイバッファは分散シフト処理能力に欠けたモノリシックな構造であるため、ディープモデルベースのエージェントではこれは難しい。
本研究では,この課題を克服し,局所的に適応的なモデルベースエージェントを構築することが可能であることを示す。
状態空間の異なる部分を異なるモデルでモデル化することにより、エージェントは状態空間全体にわたって正確なモデルを維持するだけでなく、環境の局所的な変化に迅速に適応することができる。
我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
関連論文リスト
- SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - Mitigate Domain Shift by Primary-Auxiliary Objectives Association for
Generalizing Person ReID [39.98444065846305]
ReIDモデルは、インスタンス分類の目的に関するトレーニングを通じてのみドメイン不変表現を学ぶのに苦労します。
本稿では,弱いラベル付き歩行者唾液度検出のための補助学習目標を用いて,プライマリReIDインスタンス分類目標のモデル学習を指導する手法を提案する。
我々のモデルは、最近のテストタイムダイアグラムで拡張してPAOA+を形成し、補助的な目的に対してオンザフライ最適化を行うことができる。
論文 参考訳(メタデータ) (2023-10-24T15:15:57Z) - Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:04:16Z) - Replay Buffer with Local Forgetting for Adapting to Local Environment
Changes in Deep Model-Based Reinforcement Learning [20.92599229976769]
本稿では,初回再生バッファの簡単な変更により,再生バッファの制限を克服できることを示す。
古典的ダイナ法のディープバージョンにリプレイバッファ変動を適用してこれを実証する。
論文 参考訳(メタデータ) (2023-03-15T15:21:26Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。
適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。
適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文 参考訳(メタデータ) (2022-04-25T06:45:16Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。