論文の概要: MoCoDA: Model-based Counterfactual Data Augmentation
- arxiv url: http://arxiv.org/abs/2210.11287v1
- Date: Thu, 20 Oct 2022 14:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:15:55.434137
- Title: MoCoDA: Model-based Counterfactual Data Augmentation
- Title(参考訳): MoCoDA: モデルベースの対実データ拡張
- Authors: Silviu Pitis, Elliot Creager, Ajay Mandlekar, Animesh Garg
- Abstract要約: 遷移力学における局所因数分解の認識と利用は、多目的推論の力を解き放つ上で重要な要素であると主張する。
局所構造を知ることで、このダイナミクスモデルが一般化する、目に見えない状態や動作を予測することもできます。
我々は、MoCoDAにより、RLエージェントが、目に見えない状態や行動に一般化するポリシーを学ぶことができることを示す。
- 参考スコア(独自算出の注目度): 40.878444530293635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of states in a dynamic process is exponential in the number of
objects, making reinforcement learning (RL) difficult in complex, multi-object
domains. For agents to scale to the real world, they will need to react to and
reason about unseen combinations of objects. We argue that the ability to
recognize and use local factorization in transition dynamics is a key element
in unlocking the power of multi-object reasoning. To this end, we show that (1)
known local structure in the environment transitions is sufficient for an
exponential reduction in the sample complexity of training a dynamics model,
and (2) a locally factored dynamics model provably generalizes
out-of-distribution to unseen states and actions. Knowing the local structure
also allows us to predict which unseen states and actions this dynamics model
will generalize to. We propose to leverage these observations in a novel
Model-based Counterfactual Data Augmentation (MoCoDA) framework. MoCoDA applies
a learned locally factored dynamics model to an augmented distribution of
states and actions to generate counterfactual transitions for RL. MoCoDA works
with a broader set of local structures than prior work and allows for direct
control over the augmented training distribution. We show that MoCoDA enables
RL agents to learn policies that generalize to unseen states and actions. We
use MoCoDA to train an offline RL agent to solve an out-of-distribution
robotics manipulation task on which standard offline RL algorithms fail.
- Abstract(参考訳): 動的過程における状態の数は、対象数で指数関数的であり、複雑な多目的領域において強化学習(RL)を困難にする。
エージェントが現実世界にスケールするためには、オブジェクトの目に見えない組み合わせに反応し、推論する必要がある。
遷移力学における局所因数分解の認識と利用は、多目的推論の力を解き放つ上で重要な要素であると主張する。
この目的のために,(1)環境遷移における既知の局所構造は,動力学モデルを訓練するサンプル複雑性を指数関数的に減少させるのに十分であり,(2)局所因果動力学モデルでは,未知の状態や動作への分散を明確化できることを示した。
局所構造を知ることで、このダイナミクスモデルが一般化する未認識の状態とアクションを予測できる。
我々は,これらの観測をモデルベース対実データ拡張(MoCoDA)フレームワークで活用することを提案する。
MoCoDAは、RLの反実遷移を生成するために、学習された局所因子の動的モデルを状態と行動の増大分布に適用する。
MoCoDAは、以前の作業よりも幅広いローカル構造のセットで動作し、強化されたトレーニングディストリビューションを直接制御することができる。
我々は、MoCoDAにより、RLエージェントが、目に見えない状態や行動に一般化するポリシーを学ぶことができることを示す。
我々は、オフラインのRLエージェントをトレーニングするためにMoCoDAを使用して、標準的なオフラインRLアルゴリズムが失敗する配布外ロボット操作タスクを解決する。
関連論文リスト
- Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。
MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文 参考訳(メタデータ) (2024-06-04T06:49:18Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Counterfactual Data Augmentation using Locally Factored Dynamics [44.37487079747397]
局所因果構造を利用して、シーケンス予測と非政治強化学習のサンプル効率を向上させることができる。
本稿では,これらの構造をオブジェクト指向の状態表現として推定する手法と,対実データ拡張のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-06T16:29:00Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。