論文の概要: Deep Q-Network for Stochastic Process Environments
- arxiv url: http://arxiv.org/abs/2308.03316v1
- Date: Mon, 7 Aug 2023 05:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:01:16.678168
- Title: Deep Q-Network for Stochastic Process Environments
- Title(参考訳): 確率的プロセス環境のためのディープQネットワーク
- Authors: Kuangheng He
- Abstract要約: 本研究の目的は,情報不足を伴うプロセス環境における強化学習の適用を実証することである。
深層Q-ラーニングネットワークの様々な構造を評価し,プロセス環境に最も適した変種を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning is a powerful approach for training an optimal policy
to solve complex problems in a given system. This project aims to demonstrate
the application of reinforcement learning in stochastic process environments
with missing information, using Flappy Bird and a newly developed stock trading
environment as case studies. We evaluate various structures of Deep Q-learning
networks and identify the most suitable variant for the stochastic process
environment. Additionally, we discuss the current challenges and propose
potential improvements for further work in environment-building and
reinforcement learning techniques.
- Abstract(参考訳): 強化学習は、与えられたシステムの複雑な問題を解決するための最適な政策を訓練するための強力なアプローチである。
本研究は,flappy birdと新しく開発された株式取引環境を事例として,情報不足の確率的プロセス環境における強化学習の適用を実証することを目的とする。
深層q学習ネットワークの様々な構造を評価し,確率的プロセス環境に最も適した変種を同定する。
さらに,現状の課題を議論し,環境構築と強化学習技術のさらなる開発に向けた潜在的な改善を提案する。
関連論文リスト
- Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Transfer learning with causal counterfactual reasoning in Decision
Transformers [5.672132510411465]
本研究では,環境力学の変化による伝達学習の課題について考察する。
具体的には、決定変換器アーキテクチャを用いて、新しい環境に対する新しいポリシーを精査する。
このメカニズムは,報奨のほとんどを維持しつつ,目標環境に対するポリシーのブートストラップを成功させることができることを示す。
論文 参考訳(メタデータ) (2021-10-27T11:23:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation [16.539422751949797]
ドメインキュリオシティ — データの提供に明示的に最適化された探索的ポリシのトレーニング方法です。
ほとんどの好奇心のある方法とは対照的に、私たちのアプローチは学習に明示的に報いるため、環境騒音に対して堅牢です。
提案手法は,提案手法によって収集された環境動態について,モデルがどの程度学習できるかを比較することで評価する。
論文 参考訳(メタデータ) (2021-03-12T12:02:11Z) - Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary
Approach [0.0]
進化的アルゴリズムを,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスで拡張する方法を実証する。
その結果, 提案手法が従来のアルゴリズムより優れ, 変動に頑健な解を生成することを示した。
論文 参考訳(メタデータ) (2021-02-17T16:19:17Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。