論文の概要: Provably Sample-Efficient RL with Side Information about Latent Dynamics
- arxiv url: http://arxiv.org/abs/2205.14237v1
- Date: Fri, 27 May 2022 21:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:26:35.578936
- Title: Provably Sample-Efficient RL with Side Information about Latent Dynamics
- Title(参考訳): ラテントダイナミクスの側情報を有する多能率RL
- Authors: Yao Liu, Dipendra Misra, Miro Dud\'ik, Robert E. Schapire
- Abstract要約: 本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.461789905893026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning (RL) in settings where observations are
high-dimensional, but where an RL agent has access to abstract knowledge about
the structure of the state space, as is the case, for example, when a robot is
tasked to go to a specific room in a building using observations from its own
camera, while having access to the floor plan. We formalize this setting as
transfer reinforcement learning from an abstract simulator, which we assume is
deterministic (such as a simple model of moving around the floor plan), but
which is only required to capture the target domain's latent-state dynamics
approximately up to unknown (bounded) perturbations (to account for environment
stochasticity). Crucially, we assume no prior knowledge about the structure of
observations in the target domain except that they can be used to identify the
latent states (but the decoding map is unknown). Under these assumptions, we
present an algorithm, called TASID, that learns a robust policy in the target
domain, with sample complexity that is polynomial in the horizon, and
independent of the number of states, which is not possible without access to
some prior knowledge. In synthetic experiments, we verify various properties of
our algorithm and show that it empirically outperforms transfer RL algorithms
that require access to "full simulators" (i.e., those that also simulate
observations).
- Abstract(参考訳): 例えば、ロボットが自分のカメラから観察しながら、フロアプランにアクセスしながら、建物内の特定の部屋に行くように指示された場合のように、rlエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境で強化学習(rl)について研究する。
我々は、この設定を、決定論的であると仮定する抽象シミュレータ(例えば、フロアプランを移動する単純なモデルなど)からの伝達強化学習として定式化するが、ターゲットドメインの潜在状態のダイナミクスを(環境確率性を考慮して)ほぼ未知の(有界な)摂動を捉えるためにのみ必要である。
重要なことに、対象領域における観測の構造に関する事前の知識は、潜伏状態の特定に使用できること以外は仮定しない(復号写像は未知である)。
これらの仮定の下では、ターゲット領域におけるロバストなポリシーを学習するTASIDと呼ばれるアルゴリズムが提案され、サンプルの複雑さは地平線上の多項式であり、いくつかの事前知識がなければ不可能な状態の数に依存している。
合成実験では,本アルゴリズムの諸特性を検証し,「フルシミュレータ」へのアクセスを必要とする転送RLアルゴリズム(つまり,観測をシミュレートするアルゴリズム)を経験的に上回っていることを示す。
関連論文リスト
- Geospatial Trajectory Generation via Efficient Abduction: Deployment for Independent Testing [1.8877926393541125]
情報(A*)探索により,移動軌跡を効率的に吸収できることが示される。
私たちはまた、正確な結果を提供するだけでなく、非常に大きなシナリオにもスケールできることを示す独自の実験について報告します。
論文 参考訳(メタデータ) (2024-07-08T23:11:47Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Quantifying the LiDAR Sim-to-Real Domain Shift: A Detailed Investigation
Using Object Detectors and Analyzing Point Clouds at Target-Level [1.1999555634662635]
自律運転のためのニューラルネットワークに基づくLiDARオブジェクト検出アルゴリズムは、トレーニング、検証、テストのために大量のデータを必要とする。
ニューラルネットワークのトレーニングにシミュレーションデータを使用することで、シーン、シナリオ、分布の違いによるトレーニングデータとテストデータのドメインシフトが生じることを示す。
論文 参考訳(メタデータ) (2023-03-03T12:52:01Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。