論文の概要: Decision Theory-Guided Deep Reinforcement Learning for Fast Learning
- arxiv url: http://arxiv.org/abs/2402.06023v1
- Date: Thu, 8 Feb 2024 19:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:55:18.855579
- Title: Decision Theory-Guided Deep Reinforcement Learning for Fast Learning
- Title(参考訳): 高速学習のための決定理論に基づく深層強化学習
- Authors: Zelin Wan, Jin-Hee Cho, Mu Zhu, Ahmed H. Anwar, Charles Kamhoua,
Munindar P. Singh
- Abstract要約: Decision Theory-Guided Deep Reinforcement Learning (DT-Guided DRL)
本稿では,Decision Theory-Guided Deep Reinforcement Learning (DT-Guided DRL)を提案する。
- 参考スコア(独自算出の注目度): 15.751078984462731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach, Decision Theory-guided Deep
Reinforcement Learning (DT-guided DRL), to address the inherent cold start
problem in DRL. By integrating decision theory principles, DT-guided DRL
enhances agents' initial performance and robustness in complex environments,
enabling more efficient and reliable convergence during learning. Our
investigation encompasses two primary problem contexts: the cart pole and maze
navigation challenges. Experimental results demonstrate that the integration of
decision theory not only facilitates effective initial guidance for DRL agents
but also promotes a more structured and informed exploration strategy,
particularly in environments characterized by large and intricate state spaces.
The results of experiment demonstrate that DT-guided DRL can provide
significantly higher rewards compared to regular DRL. Specifically, during the
initial phase of training, the DT-guided DRL yields up to an 184% increase in
accumulated reward. Moreover, even after reaching convergence, it maintains a
superior performance, ending with up to 53% more reward than standard DRL in
large maze problems. DT-guided DRL represents an advancement in mitigating a
fundamental challenge of DRL by leveraging functions informed by human
(designer) knowledge, setting a foundation for further research in this
promising interdisciplinary domain.
- Abstract(参考訳): 本稿では,DT誘導型深層強化学習(Decision Theory-Guided Deep Reinforcement Learning, DT-Guided DRL)を提案する。
決定理論の原則を統合することで、DT誘導DRLは複雑な環境におけるエージェントの初期性能と堅牢性を高め、学習中により効率的で信頼性の高い収束を可能にする。
本研究は,カートポールと迷路ナビゲーションの2つの課題を包含する。
実験結果から,決定理論の統合はDRLエージェントの効果的な初期ガイダンスを促進するだけでなく,特に大規模かつ複雑な状態空間を特徴とする環境において,より構造化された情報探索戦略を促進することが示された。
実験の結果,DT誘導DRLは通常のDRLに比べて有意に高い報酬が得られることが示された。
特に、トレーニングの初期段階では、DT誘導DRLは184%の報酬が蓄積される。
さらに、収束に達した後も優れた性能を保ち、大きな迷路問題において標準のdrlよりも最大53%高い報酬を得られる。
DT誘導DRLは、人間(設計者)の知識から得られる機能を活用してDRLの基本的な課題を緩和し、将来有望な学際領域におけるさらなる研究の基盤となる。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Toward Enhanced Reinforcement Learning-Based Resource Management via Digital Twin: Opportunities, Applications, and Challenges [40.73920295596231]
本稿では、ネットワークリソース管理の性能と信頼性を最適化することを目的とした、デジタルツイン(DT)強化強化学習(RL)フレームワークを提案する。
これらの課題に対処するため,総合的なDTベースのフレームワークが提案され,統一的なRLベースのリソース管理のための収束速度と性能が向上する。
提案するフレームワークは、安全な行動探索、長期的なリターンのより正確な推定、トレーニング収束の高速化、コンバージェンス性能の向上、様々なネットワーク条件へのリアルタイム適応を提供する。
論文 参考訳(メタデータ) (2024-06-12T04:14:24Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Open Problems and Modern Solutions for Deep Reinforcement Learning [0.0]
本稿では,DRLの問題点を調査し,効果的な解法を提案する2つの論文をレビューする。
手動で設計した外因性報酬とパラメータ化された内因性報酬関数を組み合わせることで、人間とロボットの協調のための報酬を設計する。
もう一つは、バックプロパゲーションの代わりに近似推論を用いてDRLの重要な事前学習特徴を迅速かつ柔軟に選択するために、選択的注意と粒子フィルタを適用している。
論文 参考訳(メタデータ) (2023-02-05T04:42:42Z) - Toward Safe and Accelerated Deep Reinforcement Learning for
Next-Generation Wireless Networks [21.618559590818236]
本稿では,DRL ベースの RRM ソリューションを開発する際に直面する2つの課題について論じる。
特に,DRLアルゴリズムが示す遅延収束と性能不安定性を緩和する,安全かつ高速化されたDRLベースのRRMソリューションの必要性について論じる。
論文 参考訳(メタデータ) (2022-09-16T04:50:49Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。