論文の概要: Architecting and Visualizing Deep Reinforcement Learning Models
- arxiv url: http://arxiv.org/abs/2112.01451v1
- Date: Thu, 2 Dec 2021 17:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 19:17:21.434061
- Title: Architecting and Visualizing Deep Reinforcement Learning Models
- Title(参考訳): 深層強化学習モデルの構築と可視化
- Authors: Alexander Neuwirth and Derek Riley
- Abstract要約: 深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To meet the growing interest in Deep Reinforcement Learning (DRL), we sought
to construct a DRL-driven Atari Pong agent and accompanying visualization tool.
Existing approaches do not support the flexibility required to create an
interactive exhibit with easily-configurable physics and a human-controlled
player. Therefore, we constructed a new Pong game environment, discovered and
addressed a number of unique data deficiencies that arise when applying DRL to
a new environment, architected and tuned a policy gradient based DRL model,
developed a real-time network visualization, and combined these elements into
an interactive display to help build intuition and awareness of the mechanics
of DRL inference.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)への関心の高まりに応えるため, DRL駆動のAtari Pongエージェントとそれに伴う可視化ツールの構築を試みた。
既存のアプローチは、容易に構成可能な物理と人間制御されたプレイヤーを備えたインタラクティブな展示を作成するのに必要な柔軟性をサポートしない。
そこで我々は,新しいPongゲーム環境を構築し,DRLを新しい環境に適用する際に生じる,多くのユニークなデータ不足に対処し,ポリシー勾配に基づくDRLモデルを設計・調整し,リアルタイムネットワークの可視化を開発し,これらの要素をインタラクティブなディスプレイに組み合わせることで,DRL推論の直観と認識を構築する。
関連論文リスト
- An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - An Architecture for Deploying Reinforcement Learning in Industrial
Environments [3.18294468240512]
OPC UAをベースとしたオペレーショナル・テクノロジー(OT)対応のRLアーキテクチャを提案する。
我々は,汎用的なプラグアンドプレイ型アプローチでRLエージェントを交換するOPC UA情報モデルを定義する。
おもちゃの例を解くことで、このアーキテクチャが最適なポリシーを決定することができることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:22:01Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。