論文の概要: Can we imitate stock price behavior to reinforcement learn option price?
- arxiv url: http://arxiv.org/abs/2105.11376v1
- Date: Mon, 24 May 2021 16:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 18:18:35.893694
- Title: Can we imitate stock price behavior to reinforcement learn option price?
- Title(参考訳): 株価変動を模倣して、強化学習オプション価格にできるのか?
- Authors: Xin Jin
- Abstract要約: 本稿では,強化学習オプション価格に基礎となる在庫の価格変動を模倣する枠組みを提案する。
我々は、非決定論的マルコフ決定プロセスを構築するために、株式価格データのアクセス可能な特徴を利用する。
提案アルゴリズムは,模擬主投資家の意思決定をベイジアンディープニューラルネットワークによるストック価格パスのシミュレートにマップする。
- 参考スコア(独自算出の注目度): 7.771514118651335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a framework of imitating the price behavior of the
underlying stock for reinforcement learning option price. We use accessible
features of the equities pricing data to construct a non-deterministic Markov
decision process for modeling stock price behavior driven by principal
investor's decision making. However, low signal-to-noise ratio and instability
that appear immanent in equity markets pose challenges to determine the state
transition (price change) after executing an action (principal investor's
decision) as well as decide an action based on current state (spot price). In
order to conquer these challenges, we resort to a Bayesian deep neural network
for computing the predictive distribution of the state transition led by an
action. Additionally, instead of exploring a state-action relationship to
formulate a policy, we seek for an episode based visible-hidden state-action
relationship to probabilistically imitate principal investor's successive
decision making. Our algorithm then maps imitative principal investor's
decisions to simulated stock price paths by a Bayesian deep neural network.
Eventually the optimal option price is reinforcement learned through maximizing
the cumulative risk-adjusted return of a dynamically hedged portfolio over
simulated price paths of the underlying.
- Abstract(参考訳): 本稿では,強化学習オプション価格に基礎となる在庫の価格変動を模倣する枠組みを提案する。
株式価格データのアクセス可能な特徴を用いて、主要投資家の意思決定による株価変動をモデル化するための非決定論的マルコフ決定プロセスを構築する。
しかし、株式市場における信号対雑音比の低さと不安定さは、行動(主に投資家の決定)を行った後に状態遷移(価格変化)を決定し、現在の状態(スポット価格)に基づいて行動を決定することが困難となる。
これらの課題を克服するために、アクションによって導かれる状態遷移の予測分布を計算するために、ベイジアンディープニューラルネットワークを利用する。
さらに、政策を定式化するための状態-行動関係を探求する代わりに、主投資家の連続的な意思決定を確率的に模倣するエピソードベースの状態-行動関係を求める。
提案アルゴリズムは,ベイズ型深層ニューラルネットワークを用いて,主幹投資家の決定をシミュレーションした株価経路にマップする。
最終的に、最適なオプション価格は、基盤のシミュレーション価格経路よりも、動的にヘッジされたポートフォリオの累積リスク調整されたリターンを最大化することで学習される。
関連論文リスト
- Deep State-Space Model for Predicting Cryptocurrency Price [16.871928140625332]
日々の暗号通貨価格を予測するという課題に対処する。
我々のアプローチは状態空間モデルの確率的定式化を維持する。
提案手法をディープステートスペースモデルと呼ぶ。
論文 参考訳(メタデータ) (2023-11-21T08:49:55Z) - Cryptocurrency Portfolio Optimization by Neural Networks [81.20955733184398]
本稿では,これらの投資商品を活用するために,ニューラルネットワークに基づく効果的なアルゴリズムを提案する。
シャープ比を最大化するために、各アセットの割り当て重量を時間間隔で出力するディープニューラルネットワークを訓練する。
ネットワークの特定の資産に対するバイアスを規制する新たな損失項を提案し,最小分散戦略に近い割り当て戦略をネットワークに学習させる。
論文 参考訳(メタデータ) (2023-10-02T12:33:28Z) - Diffusion Variational Autoencoder for Tackling Stochasticity in
Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。
多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。
深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。
本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T16:21:15Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - HireVAE: An Online and Adaptive Factor Model Based on Hierarchical and
Regime-Switch VAE [113.47287249524008]
オンラインで適応的な環境で株価予測を行うファクターモデルを構築することは、依然としてオープンな疑問である。
本稿では,オンラインおよび適応型要素モデルであるHireVAEを,市場状況とストックワイド潜在要因の関係を埋め込んだ階層型潜在空間として提案する。
4つの一般的な実市場ベンチマークにおいて、提案されたHireVAEは、以前の手法よりもアクティブリターンの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-05T12:58:13Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Deep Hedging of Derivatives Using Reinforcement Learning [0.3313576045747072]
取引コストのあるデリバティブに対して、強化学習が最適なヘッジ戦略の導出にどのように役立つかを示す。
我々は、比較的単純な評価モデルを取り入れた会計P&Lアプローチの使用を含むハイブリッドアプローチがうまく機能することがわかります。
論文 参考訳(メタデータ) (2021-03-29T07:43:30Z) - Deep Hedging: Learning Risk-Neutral Implied Volatility Dynamics [0.0]
シミュレーションスポットとオプション価格の経路に対するリスクニュートラル測度学習のための数値的効率的アプローチ
市場ダイナミクスは、リスク中立的措置に従う場合に限り、取引コストがなければ「統計的な仲裁」ができないことを示している。
論文 参考訳(メタデータ) (2021-03-22T15:38:25Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。