論文の概要: From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement
Learning with Contextual Information
- arxiv url: http://arxiv.org/abs/2310.00642v1
- Date: Sun, 1 Oct 2023 11:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:47:48.644341
- Title: From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement
Learning with Contextual Information
- Title(参考訳): バンディットモデルから深い決定論的政策勾配、文脈情報を用いた強化学習へ
- Authors: Zhendong Shi, Xiaoli Wei and Ercan E. Kuruoglu
- Abstract要約: 本研究では,文脈情報による問題を克服するために2つの手法を用いる。
量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。
実験の結果,両手法が強化学習の進行を加速し,最適解が得られることがわかった。
- 参考スコア(独自算出の注目度): 4.42532447134568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of how to take the right actions to make profits in sequential
process continues to be difficult due to the quick dynamics and a significant
amount of uncertainty in many application scenarios. In such complicated
environments, reinforcement learning (RL), a reward-oriented strategy for
optimum control, has emerged as a potential technique to address this strategic
decision-making issue. However, reinforcement learning also has some
shortcomings that make it unsuitable for solving many financial problems,
excessive resource consumption, and inability to quickly obtain optimal
solutions, making it unsuitable for quantitative trading markets. In this
study, we use two methods to overcome the issue with contextual information:
contextual Thompson sampling and reinforcement learning under supervision which
can accelerate the iterations in search of the best answer. In order to
investigate strategic trading in quantitative markets, we merged the earlier
financial trading strategy known as constant proportion portfolio insurance
(CPPI) into deep deterministic policy gradient (DDPG). The experimental results
show that both methods can accelerate the progress of reinforcement learning to
obtain the optimal solution.
- Abstract(参考訳): シーケンシャルなプロセスで利益を得るための適切なアクションの取り方に関する問題は、多くのアプリケーションシナリオにおける迅速なダイナミクスとかなりの不確実性のために、依然として困難である。
このような複雑な環境下では, 最適制御のための報酬指向戦略である強化学習(rl)が, この戦略的意思決定問題に対処する潜在的な手法として浮上している。
しかし、強化学習には、多くの金融問題、過剰な資源消費、最適な解決策を迅速に得ることができないという欠点があり、量的取引市場には不適当である。
本研究では,文脈情報による問題の解決に2つの手法を用いる:文脈的トンプソンサンプリングと,最適解を求める際の反復を高速化する監視下の強化学習である。
量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。
実験の結果,両手法とも強化学習の進展を加速し,最適解を得ることができた。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - On solving decision and risk management problems subject to uncertainty [91.3755431537592]
不確実性は意思決定とリスク管理において広範囲にわたる課題である。
本稿では,このような戦略を体系的に理解し,その適用範囲を判断し,それらをうまく活用するための枠組みを開発する。
論文 参考訳(メタデータ) (2023-01-18T19:16:23Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - An Application of Deep Reinforcement Learning to Algorithmic Trading [4.523089386111081]
本稿では, 深部強化学習(DRL)に基づくアルゴリズム取引問題の解法を提案する。
幅広い株式市場でシャープ比のパフォーマンス指標を最大化するために、新しいDRLトレーディング戦略を提案する。
得られた強化学習 (RL) エージェントのトレーニングは, 限られた市場履歴データから人工軌道を生成することに基づいている。
論文 参考訳(メタデータ) (2020-04-07T14:57:23Z) - Deep Deterministic Portfolio Optimization [0.0]
この研究は、概念的には単純だが数学的には非自明なトレーディング環境上で強化学習アルゴリズムをテストすることである。
本研究では, 決定論的政策勾配アルゴリズムを深く研究し, このような強化学習エージェントが, 最適取引戦略の本質的特徴を回復できることを示す。
論文 参考訳(メタデータ) (2020-03-13T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。