論文の概要: Pathfinding in Random Partially Observable Environments with
Vision-Informed Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.04801v1
- Date: Sun, 11 Sep 2022 06:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:38:38.821707
- Title: Pathfinding in Random Partially Observable Environments with
Vision-Informed Deep Reinforcement Learning
- Title(参考訳): 視覚インフォームド深部強化学習を用いたランダム部分観測環境におけるパスフィンディング
- Authors: Anthony Dowling
- Abstract要約: 深層強化学習(Deep reinforcement learning)は、Atariのビデオゲームからストックトレーディングまで、さまざまな環境で問題を解決する技術である。
この方法は、深いニューラルネットワークモデルを利用して、目標に達するためのコストと報酬を組み込むことができる報酬関数を最大化することを目的として、所定の環境の観測に基づいて決定を行う。
この研究では、複数のディープQネットワーク(DQN)エージェントが、最小の移動時間で目標ゾーンに達することを目標として、部分的に観測可能な環境で運用するように訓練されている。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning is a technique for solving problems in a variety
of environments, ranging from Atari video games to stock trading. This method
leverages deep neural network models to make decisions based on observations of
a given environment with the goal of maximizing a reward function that can
incorporate cost and rewards for reaching goals. With the aim of pathfinding,
reward conditions can include reaching a specified target area along with costs
for movement. In this work, multiple Deep Q-Network (DQN) agents are trained to
operate in a partially observable environment with the goal of reaching a
target zone in minimal travel time. The agent operates based on a visual
representation of its surroundings, and thus has a restricted capability to
observe the environment. A comparison between DQN, DQN-GRU, and DQN-LSTM is
performed to examine each models capabilities with two different types of
input. Through this evaluation, it is been shown that with equivalent training
and analogous model architectures, a DQN model is able to outperform its
recurrent counterparts.
- Abstract(参考訳): 深層強化学習(deep reinforcement learning)は、atariのビデオゲームから株式取引まで、さまざまな環境で問題を解決するテクニックである。
この方法は、深いニューラルネットワークモデルを利用して、目標に達するためのコストと報酬を組み込むことができる報酬関数を最大化することを目的として、所定の環境の観測に基づいて決定を行う。
パスフィンディングの目的により、報酬条件は移動コストとともに特定の目標領域に到達することを含むことができる。
本研究では,複数の深層qネットワーク(dqn)エージェントを訓練し,最小限の移動時間でターゲットゾーンに到達することを目標とした,部分的に観測可能な環境での運用を行う。
エージェントは周囲の視覚的表現に基づいて動作し、環境を観察する能力が制限される。
DQN, DQN-GRU, DQN-LSTMの比較を行い, 2種類の入力で各モデル機能について検討した。
この評価により、等価なトレーニングと類似したモデルアーキテクチャにより、DQNモデルが繰り返し発生するモデルよりも優れていることが示されている。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN [4.161177874372099]
本稿では、A*とRRT(Rapidly-Exploring Random Tree)を参考に、Double DQN(DDQN)の改良を提案する。
シミュレーション実験により, DDQNの有効性が検証された。
論文 参考訳(メタデータ) (2021-07-23T14:03:04Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。