論文の概要: MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/1909.07750v5
- Date: Fri, 14 Jul 2023 11:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 12:35:20.971956
- Title: MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning
- Title(参考訳): MDP Playground:強化学習のための分析とデバッグテストベッド
- Authors: Raghu Rajan, Jessica Lizeth Borja Diaz, Suresh Guttikonda, Fabio
Ferreira, Andr\'e Biedenkapp, Jan Ole von Hartz and Frank Hutter
- Abstract要約: MDP Playgroundは、強化学習(RL)エージェントのためのテストベッドであり、硬さの次元を持つ。
我々は、遅延報酬、シーケンス長、報酬密度、無関係性、画像表現、特徴、時間単位、行動範囲など、幅広い次元の制御を考慮し、許容する。
MDPプレイグラウンドを用いて実験を設計し,玩具環境に関する知見を得る方法について述べる。
- 参考スコア(独自算出の注目度): 28.484492740866102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MDP Playground, a testbed for Reinforcement Learning (RL) agents
with dimensions of hardness that can be controlled independently to challenge
agents in different ways and obtain varying degrees of hardness in toy and
complex RL environments. We consider and allow control over a wide variety of
dimensions, including delayed rewards, sequence lengths, reward density,
stochasticity, image representations, irrelevant features, time unit, action
range and more. We define a parameterised collection of fast-to-run toy
environments in OpenAI Gym by varying these dimensions and propose to use these
to understand agents better. We then show how to design experiments using MDP
Playground to gain insights on the toy environments. We also provide wrappers
that can inject many of these dimensions into any Gym environment. We
experiment with these wrappers on Atari and Mujoco to allow for understanding
the effects of these dimensions on environments that are more complex than the
toy environments. We also compare the effect of the dimensions on the toy and
complex environments. Finally, we show how to use MDP Playground to debug
agents, to study the interaction of multiple dimensions and describe further
use-cases.
- Abstract(参考訳): MDP Playgroundは強化学習(Reinforcement Learning, RL)エージェントのためのテストベッドで、異なる方法でエージェントに挑戦し、おもちゃや複雑なRL環境で様々な硬さを得るために独立に制御できる。
我々は, 遅延報酬, シーケンス長, 報酬密度, 確率性, 画像表現, 無関係特徴, 時間単位, 行動範囲など, 様々な次元の制御を考察し, 許容する。
これらの次元を変化させて,openai体育館における高速実行環境のパラメタライズドコレクションを定義し,エージェントの理解を深める手法を提案する。
次に,MDP Playground を用いた実験を設計し,玩具環境に関する知見を得る方法を示す。
また、これらの寸法の多くをジム環境に注入できるラッパーも提供しています。
これらのラッパーをAtariとMujocoで実験することで、おもちゃの環境よりも複雑な環境に対するこれらの次元の影響を理解することができる。
また,その寸法が玩具や複雑な環境に与える影響も比較した。
最後に,MDP Playgroundを用いてエージェントをデバッグし,複数次元の相互作用を研究し,さらなるユースケースを説明する。
関連論文リスト
- ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments [13.988804095409133]
本研究では,実世界のシーン,オブジェクト,部屋のレイアウトを取り入れたReALFREDベンチマークを提案する。
具体的には、視覚領域のギャップを小さくした環境空間を更新したALFREDベンチマークを拡張する。
ReALFREDでは、以前作られたALFREDベンチマークのメソッドを分析し、すべてのメトリクスで一貫して低いパフォーマンスが得られることを観察する。
論文 参考訳(メタデータ) (2024-07-26T07:00:27Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments [5.020816812380825]
深部強化学習(RL)の最近の進歩は,シミュレーション環境における複雑な意思決定能力を示している。
しかしながら、これらは、トレーニングやテストが行われる環境の複雑さやバリエーションが欠如しているため、より複雑な問題はほとんどありません。
我々は,このギャップを埋めるために,3次元オープンワールドFPSゲームに基づく,強力でオープンな環境であるWILD-SCAVを開発した。
エージェントは3D環境を理解し、ナビゲートし、計画し、人間のような方法で競争し、協力することができる。
論文 参考訳(メタデータ) (2022-10-14T13:39:41Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z) - Using Fractal Neural Networks to Play SimCity 1 and Conway's Game of
Life at Variable Scales [0.0]
Gym-cityは、SimCity 1のゲームエンジンを使って都市環境をシミュレートする強化学習環境である。
我々は、人口に着目し、訓練中に見られたものよりも大きな地図サイズに一般化するエージェントの能力を分析する。
論文 参考訳(メタデータ) (2020-01-29T19:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。