論文の概要: Reinforcement Learning for Jump-Diffusions, with Financial Applications
- arxiv url: http://arxiv.org/abs/2405.16449v2
- Date: Thu, 8 Aug 2024 13:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:07:02.257445
- Title: Reinforcement Learning for Jump-Diffusions, with Financial Applications
- Title(参考訳): 金融応用による跳躍拡散の強化学習
- Authors: Xuefeng Gao, Lingfei Li, Xun Yu Zhou,
- Abstract要約: 本研究では,ジャンプ拡散過程によって制御される系の力学に対する連続時間強化学習について検討する。
本研究では,ジャンプの存在が一般の俳優や批評家のパラメータ化に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 8.725446812770791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study continuous-time reinforcement learning (RL) for stochastic control in which system dynamics are governed by jump-diffusion processes. We formulate an entropy-regularized exploratory control problem with stochastic policies to capture the exploration--exploitation balance essential for RL. Unlike the pure diffusion case initially studied by Wang et al. (2020), the derivation of the exploratory dynamics under jump-diffusions calls for a careful formulation of the jump part. Through a theoretical analysis, we find that one can simply use the same policy evaluation and $q$-learning algorithms in Jia and Zhou (2022a, 2023), originally developed for controlled diffusions, without needing to check a priori whether the underlying data come from a pure diffusion or a jump-diffusion. However, we show that the presence of jumps ought to affect parameterizations of actors and critics in general. We investigate as an application the mean--variance portfolio selection problem with stock price modelled as a jump-diffusion, and show that both RL algorithms and parameterizations are invariant with respect to jumps. Finally, we present a detailed study on applying the general theory to option hedging.
- Abstract(参考訳): 本研究では,システムダイナミクスがジャンプ拡散過程によって制御される確率制御のための連続時間強化学習(RL)について検討する。
エントロピー規則化探索制御問題を確率的ポリシで定式化し,RLに必要な探索-探索バランスを把握した。
Wang et al (2020) が最初に研究した純粋な拡散の場合とは異なり、ジャンプ拡散の下での探索力学の導出はジャンプ部分の慎重に定式化を要求する。
理論解析により、Jia と Zhou (2022a, 2023) で同じポリシー評価と$q$-learningアルゴリズムを、元々は制御拡散のために開発されたもので、基礎となるデータが純粋な拡散かジャンプ拡散かを事前に確認する必要がない。
しかし,ジャンプの存在は,一般の俳優や批評家のパラメータ化に影響を及ぼすと考えられる。
本稿では, 株価をジャンプ拡散としてモデル化した平均分散ポートフォリオ選択問題を応用として検討し, RLアルゴリズムとパラメータ化の両方がジャンプに関して不変であることを示す。
最後に、オプションヘッジに一般理論を適用するための詳細な研究について述べる。
関連論文リスト
- Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement
Learning Perspective [3.626013617212667]
量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。
我々の貢献は、この問題の適切なゲーム理論定式化が、現代の深層多エージェント強化学習における既存の発展を活用することで、この問題をいかに解決できるかを示すことである。
論文 参考訳(メタデータ) (2022-03-14T05:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。