論文の概要: RLOP: RL Methods in Option Pricing from a Mathematical Perspective
- arxiv url: http://arxiv.org/abs/2205.05600v1
- Date: Wed, 11 May 2022 16:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 21:40:11.313020
- Title: RLOP: RL Methods in Option Pricing from a Mathematical Perspective
- Title(参考訳): RLOP:数理的観点からみたオプション価格のRL法
- Authors: Ziheng Chen
- Abstract要約: 数学の観点から、修正QLBSとRLOPモデルという2つの環境を構築します。
ニューラルネットワークによる環境仕様,学習アルゴリズム,エージェントパラメトリゼーションを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract In this work, we build two environments, namely the modified QLBS
and RLOP models, from a mathematics perspective which enables RL methods in
option pricing through replicating by portfolio. We implement the environment
specifications (the source code can be found at
https://github.com/owen8877/RL OP), the learning algorithm, and agent
parametrization by a neural network. The learned optimal hedging strategy is
compared against the BS prediction. The effect of various factors is considered
and studied based on how they affect the optimal price and position.
- Abstract(参考訳): 抽象 この研究では、ポートフォリオの複製を通じてオプション価格のRLメソッドを可能にする数学の観点から、修正QLBSとRLOPモデルという2つの環境を構築します。
環境仕様(ソースコードはhttps://github.com/owen8877/rl op)、学習アルゴリズム、ニューラルネットワークによるエージェントパラメータ化を実装しています。
学習した最適ヘッジ戦略をbs予測と比較する。
様々な要因が最適価格と位置にどのように影響するかを考察・検討した。
関連論文リスト
- Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning [2.2725929250900947]
静的な$D$-scalingでステートフィードバックの$mu$合成を解くために、よく知られた$DK$-iterationのモデルフリーバージョンを開発する。
提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして、古典的な中央経路アルゴリズムを模倣する。
本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
論文 参考訳(メタデータ) (2021-11-30T16:29:49Z) - Explainable Deep Reinforcement Learning for Portfolio Management: An
Empirical Approach [30.283740528236752]
ディープニューラルネットワークのブラックボックスの性質のため、DRLベースのトレーディング戦略を理解するのは難しい。
ポートフォリオ管理タスクにおけるDRLエージェントの戦略を説明するための実証的アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-07T04:23:48Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。