論文の概要: Temporal Aware Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.02145v1
- Date: Sun, 5 Sep 2021 18:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 04:20:42.146854
- Title: Temporal Aware Deep Reinforcement Learning
- Title(参考訳): 時間を考慮した深層強化学習
- Authors: Deepak-George Thomas
- Abstract要約: 本研究では,時間的・空間的要素を共に学習する手法を提案する。
このアルゴリズムは、ロボット工学とシーケンシャルな意思決定領域に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The function approximators employed by traditional image based Deep
Reinforcement Learning (DRL) algorithms usually lack a temporal learning
component and instead focus on learning the spatial component. We propose a
technique wherein both temporal as well as spatial components are jointly
learned. Our tested was tested with a generic DQN and it outperformed it in
terms of maximum rewards as well as sample complexity. This algorithm has
implications in the robotics as well as sequential decision making domains.
- Abstract(参考訳): 従来の画像に基づくDeep Reinforcement Learning (DRL)アルゴリズムが採用する関数近似器は通常、時間的学習要素を欠き、代わりに空間成分の学習に集中する。
本研究では,時間的・空間的要素を共に学習する手法を提案する。
テストは汎用DQNで実施し,最大報酬およびサンプルの複雑さの観点から比較した。
このアルゴリズムは、ロボット工学とシーケンシャルな意思決定領域に影響を及ぼす。
関連論文リスト
- Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for
Deep-Learned Control Systems [20.595032143044506]
本稿では,直列線形ユニット(ReLU)をアクティベートしたディープニューラルネットワークの,前方および後方到達可能な正確な集合を計算するためのツールを提案する。
このツールを用いてアルゴリズムを開発し、フィードバックループ内のニューラルネットワークを持つ制御系に対する不変集合とアトラクション領域(ROA)を計算する。
論文 参考訳(メタデータ) (2022-10-15T17:15:53Z) - Temporal Feature Alignment in Contrastive Self-Supervised Learning for
Human Activity Recognition [2.2082422928825136]
自己教師付き学習は通常、ラベルのないデータから深い特徴表現を学習するために使用される。
本稿では,時間空間に動的時間ワープアルゴリズムを組み込んで,時間次元で特徴を整列させる手法を提案する。
提案されたアプローチは、最近のSSLベースラインと比較して、ロバストな特徴表現を学習する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-10-07T07:51:01Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。