論文の概要: Provably Efficient Causal Model-Based Reinforcement Learning for
Systematic Generalization
- arxiv url: http://arxiv.org/abs/2202.06545v3
- Date: Thu, 30 Mar 2023 12:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:38:10.496129
- Title: Provably Efficient Causal Model-Based Reinforcement Learning for
Systematic Generalization
- Title(参考訳): システム一般化のための因果モデルに基づく強化学習
- Authors: Mirco Mutti, Riccardo De Santi, Emanuele Rossi, Juan Felipe Calderon,
Michael Bronstein, Marcello Restelli
- Abstract要約: 逐次的意思決定設定では、エージェントは、おそらく無限の、大きな環境の集合に対して体系的な一般化を達成することを目的としている。
本稿では,因果的視点を用いた体系的一般化の抽出可能な定式化について述べる。
特定の構造的仮定の下では、望まざる計画誤差を避けられない準最適項まで保証する単純な学習アルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 30.456180468318305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the sequential decision making setting, an agent aims to achieve
systematic generalization over a large, possibly infinite, set of environments.
Such environments are modeled as discrete Markov decision processes with both
states and actions represented through a feature vector. The underlying
structure of the environments allows the transition dynamics to be factored
into two components: one that is environment-specific and another that is
shared. Consider a set of environments that share the laws of motion as an
example. In this setting, the agent can take a finite amount of reward-free
interactions from a subset of these environments. The agent then must be able
to approximately solve any planning task defined over any environment in the
original set, relying on the above interactions only. Can we design a provably
efficient algorithm that achieves this ambitious goal of systematic
generalization? In this paper, we give a partially positive answer to this
question. First, we provide a tractable formulation of systematic
generalization by employing a causal viewpoint. Then, under specific structural
assumptions, we provide a simple learning algorithm that guarantees any desired
planning error up to an unavoidable sub-optimality term, while showcasing a
polynomial sample complexity.
- Abstract(参考訳): シーケンシャルな意思決定設定では、エージェントは、大きな、おそらく無限の環境セット上の体系的な一般化を達成することを目指している。
このような環境は、特徴ベクトルを通して表される状態と行動の両方を持つ離散マルコフ決定プロセスとしてモデル化される。
環境の基盤となる構造は、トランジッションのダイナミクスを、環境固有のものと共有されるものとの2つのコンポーネントに分解することができる。
動きの法則を共有する一連の環境を例に考えてみましょう。
この設定では、エージェントはこれらの環境の部分集合から有限量の報酬のない相互作用を取ることができる。
エージェントは、上記の相互作用のみに依存するため、元のセットの任意の環境上で定義された任意の計画タスクを概ね解決できなければならない。
この体系的一般化という野心的な目標を達成するための証明可能な効率的なアルゴリズムを設計できるだろうか?
本稿では,この問題に対して部分的に肯定的な回答を与える。
まず,因果的視点を用いて体系的一般化の扱いやすい定式化を提案する。
そして、特定の構造的仮定の下で、多項式サンプルの複雑さを示しながら、避けられない準最適項までの計画誤差を保証する単純な学習アルゴリズムを提供する。
関連論文リスト
- Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Constrained Environment Optimization for Prioritized Multi-Agent
Navigation [11.473177123332281]
本稿では,システムレベルの最適化問題において,環境を決定変数として考えることを目的とする。
本稿では,非優先順位付け・優先度付けされた環境最適化の新たな問題を提案する。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
論文 参考訳(メタデータ) (2023-05-18T18:55:06Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - The Advantage of Conditional Meta-Learning for Biased Regularization and
Fine-Tuning [50.21341246243422]
バイアスレギュラー化と微調整は、最近の2つのメタラーニングアプローチである。
本稿では,条件付き関数マッピングタスクの側情報をメタパラメータベクトルに推論する条件付きメタラーニングを提案する。
次に、実際には同等の利点をもたらす凸メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T07:32:16Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。