論文の概要: AAMDRL: Augmented Asset Management with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.08497v1
- Date: Wed, 30 Sep 2020 03:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:59:28.081337
- Title: AAMDRL: Augmented Asset Management with Deep Reinforcement Learning
- Title(参考訳): aamdrl:深層強化学習によるアセットマネジメントの拡張
- Authors: Eric Benhamou and David Saltiel and Sandrine Ungari and Abhishek
Mukhopadhyay and Jamal Atif
- Abstract要約: 深層強化学習がこの課題にどのように対処できるかを示す。
コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。
我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
- 参考スコア(独自算出の注目度): 5.801876281373619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can an agent learn efficiently in a noisy and self adapting environment with
sequential, non-stationary and non-homogeneous observations? Through trading
bots, we illustrate how Deep Reinforcement Learning (DRL) can tackle this
challenge. Our contributions are threefold: (i) the use of contextual
information also referred to as augmented state in DRL, (ii) the impact of a
one period lag between observations and actions that is more realistic for an
asset management environment, (iii) the implementation of a new repetitive
train test method called walk forward analysis, similar in spirit to cross
validation for time series. Although our experiment is on trading bots, it can
easily be translated to other bot environments that operate in sequential
environment with regime changes and noisy data. Our experiment for an augmented
asset manager interested in finding the best portfolio for hedging strategies
shows that AAMDRL achieves superior returns and lower risk.
- Abstract(参考訳): エージェントは、連続的、非定常的、非均質な観察を伴うノイズの多い自己適応環境で効率的に学習できるか?
ボットの取引を通じて、Deep Reinforcement Learning(DRL)がこの課題にどのように対処できるかを説明する。
私たちの貢献は3倍です
(i)drlにおける拡張状態とも呼ばれる文脈情報の使用
二 資産管理環境においてより現実的な観察と行動の間の一期間の遅れの影響
(iii)時系列のクロス検証に類似した、ウォークフォワード分析(walk forward analysis)と呼ばれる新しい繰り返し列車試験法の実装。
実験はトレーディングボットを対象とするが,レジーム変化やノイズのあるデータを含むシーケンシャルな環境で動作する他のボット環境への変換が容易である。
AAMDRLが優れたリターンを達成し、リスクを低く抑えるため、集積戦略の最良のポートフォリオを見つけることに関心のある資産運用者に対する実験を行った。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Deep Reinforcement Learning for Active High Frequency Trading [1.6874375111244329]
我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。
我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。
論文 参考訳(メタデータ) (2021-01-18T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。