論文の概要: Learning Efficient Exploration through Human Seeded Rapidly-exploring
Random Trees
- arxiv url: http://arxiv.org/abs/2203.12774v1
- Date: Wed, 23 Mar 2022 23:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:25:46.899091
- Title: Learning Efficient Exploration through Human Seeded Rapidly-exploring
Random Trees
- Title(参考訳): 急速探索型ランダムツリーを用いた効率的な探索学習
- Authors: Max Zuo and Logan Schick and Matthew Gombolay and Nakul Gopalan
- Abstract要約: 探索されたゲーム状態の数と、それらのゲーム状態の探索に要する時間について、RRTと行動閉鎖支援RTを紹介する。
HSRRTとCA-RRTはいずれも,既存のベースラインと比較して,ツリー/イテレーションの少ないゲーム状態を探索する。
テスト環境では,CA-RRTはRRTと同数の状態に到達することができた。
- 参考スコア(独自算出の注目度): 1.2993951779393873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern day computer games have extremely large state and action spaces. To
detect bugs in these games' models, human testers play the games repeatedly to
explore the game and find errors in the games. Such game play is exhaustive and
time consuming. Moreover, since robotics simulators depend on similar methods
of model specification and debugging, the problem of finding errors in the
model is of interest for the robotics community to ensure robot behaviors and
interactions are consistent in simulators. Previous methods have used
reinforcement learning and search based methods including Rapidly-exploring
Random Trees (RRT) to explore a game's state-action space to find bugs.
However, such search and exploration based methods are not efficient at
exploring the state-action space without a pre-defined heuristic. In this work
we attempt to combine a human-tester's expertise in solving games, and the
exhaustiveness of RRT to search a game's state space efficiently with high
coverage. This paper introduces human-seeded RRT (HS-RRT) and
behavior-cloning-assisted RRT (CA-RRT) in testing the number of game states
searched and the time taken to explore those game states. We compare our
methods to an existing weighted RRT baseline for game exploration testing
studied. We find HS-RRT and CA-RRT both explore more game states in fewer tree
expansions/iterations when compared to the existing baseline. In each test,
CA-RRT reached more states on average in the same number of iterations as RRT.
In our tested environments, CA-RRT was able to reach the same number of states
as RRT by more than 5000 fewer iterations on average, almost a 50% reduction.
- Abstract(参考訳): 現代のコンピュータゲームには、非常に大きな状態とアクションスペースがある。
これらのゲームのモデルのバグを検出するために、人間のテスタは繰り返しゲームをしてゲームを調べ、ゲーム内のエラーを見つける。
そのような遊びは徹底的で時間を要する。
さらに、ロボットシミュレータは、モデル仕様とデバッグの類似の方法に依存しているため、モデル内のエラーを見つける問題は、ロボットの振る舞いとインタラクションがシミュレーターで一貫性があることを保証するロボットコミュニティにとって関心がある。
以前の手法では強化学習と検索ベースの手法を使い、素早く探索するランダムツリー(rrt)を含むゲームの状態動作空間を探索してバグを見つける。
しかし、そのような探索と探索に基づく手法は、事前定義されたヒューリスティックがなければ状態-作用空間を探索することができない。
本研究は,ゲーム解決における人間テスターの専門知識と,ゲームの状態空間を高いカバレッジで効率的に探索するRRTの徹底性を組み合わせることを目的とする。
本稿では,人間種RRT (HS-RRT) と行動閉鎖支援RT (CA-RRT) を用いて,探索したゲーム状態の数と,それらのゲーム状態の探索に要する時間について述べる。
本手法をゲーム探索試験のための既存の重み付きRRTベースラインと比較した。
HS-RRT と CA-RRT はいずれも,既存のベースラインと比較して,ツリー拡張/イテレーションの少ないゲーム状態を探索する。
各テストでは、CA-RRTはRRTと同じ回数で平均でより多くの状態に達した。
テスト環境では、CA-RRTは平均で5000以上のイテレーションを減らし、約50%の削減を実現しました。
関連論文リスト
- SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - Go-Explore Complex 3D Game Environments for Automated Reachability
Testing [4.322647881761983]
本稿では,強力な探索アルゴリズムであるGo-Exploreに基づいて,シミュレーションされた3次元環境における到達性バグを対象とするアプローチを提案する。
Go-Exploreはマップ全体でユニークなチェックポイントを保存し、そこから探索する有望なチェックポイントを特定する。
我々のアルゴリズムは1台のマシンで10時間以内に1.5km x 1.5kmのゲーム世界を完全にカバーできる。
論文 参考訳(メタデータ) (2022-09-01T16:31:37Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。
実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。
本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-05-12T12:28:25Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。