論文の概要: Policy Gradient Stock GAN for Realistic Discrete Order Data Generation
in Financial Markets
- arxiv url: http://arxiv.org/abs/2204.13338v1
- Date: Thu, 28 Apr 2022 08:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 14:50:36.241272
- Title: Policy Gradient Stock GAN for Realistic Discrete Order Data Generation
in Financial Markets
- Title(参考訳): 金融市場におけるリアルな離散順序データ生成のための政策グラディエント株GAN
- Authors: Masanori Hirano, Hiroki Sakaji, Kiyoshi Izumi
- Abstract要約: 本研究では,金融市場における現実的な秩序を創出するためのGAN(Generative Adversarial Network)を提案する。
以前の研究では、GANアーキテクチャの学習制限のため、金融市場向けのGANは連続した空間で偽の注文を発生させた。
この変更は通常のGAN学習アルゴリズムを無効にするため、本研究では学習アルゴリズムのポリシー勾配を用いた。
- 参考スコア(独自算出の注目度): 6.195147326306547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a new generative adversarial network (GAN) for generating
realistic orders in financial markets. In some previous works, GANs for
financial markets generated fake orders in continuous spaces because of GAN
architectures' learning limitations. However, in reality, the orders are
discrete, such as order prices, which has minimum order price unit, or order
types. Thus, we change the generation method to place the generated fake orders
into discrete spaces in this study. Because this change disabled the ordinary
GAN learning algorithm, this study employed a policy gradient, frequently used
in reinforcement learning, for the learning algorithm. Through our experiments,
we show that our proposed model outperforms previous models in generated order
distribution. As an additional benefit of introducing the policy gradient, the
entropy of the generated policy can be used to check GAN's learning status. In
the future, higher performance GANs, better evaluation methods, or the
applications of our GANs can be addressed.
- Abstract(参考訳): 本研究では,金融市場における現実的な秩序を創出するためのGAN(Generative Adversarial Network)を提案する。
以前の研究では、GANアーキテクチャの学習制限のため、金融市場向けのGANが連続空間で偽の注文を発生させた。
しかし、実際の注文は、最小の注文価格単位を持つ注文価格や注文タイプなど、離散的なものである。
そこで本研究では,生成法を変更し,生成した偽の順序を離散空間に配置する。
この変更は通常のGAN学習アルゴリズムを無効にするため、強化学習によく使用されるポリシー勾配を学習アルゴリズムに用いた。
実験により,提案モデルが生成順序分布において先行モデルより優れていることを示す。
政策勾配の導入によるさらなるメリットとして、生成された政策のエントロピーを用いて、GANの学習状況をチェックすることができる。
将来的には、より高いパフォーマンスのgan、より良い評価方法、あるいは私たちのganの応用に対処できるでしょう。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Generative Adversarial Reduced Order Modelling [0.0]
本稿ではGAROMについて述べる。GAN(Generative Adversarial Network)に基づくリダクション・オーダー・モデリング(ROM)の新しいアプローチである。
GANはデータ配布を学習し、よりリアルなデータを生成する可能性がある。
本研究では,パラメータ微分方程式の解を学習可能なデータ駆動生成逆数モデルを導入することにより,GANとROMの枠組みを組み合わせる。
論文 参考訳(メタデータ) (2023-05-25T09:23:33Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Forward Super-Resolution: How Can GANs Learn Hierarchical Generative
Models for Real-World Distributions [66.05472746340142]
生成ネットワーク(GAN)は、複雑で現実世界の分布を学習する上で最も成功したネットワークの一つである。
本稿では,GANが実写画像の分布を効率的に学習する方法について述べる。
論文 参考訳(メタデータ) (2021-06-04T17:33:29Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural
Language Generation [79.4205462326301]
TaylorGANは関数ベースの自然言語生成のための新しいアプローチである。
オフポリシー更新による勾配推定と1階のTaylor拡張が強化される。
これにより、より小さなバッチサイズで、スクラッチからNLGモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2020-11-27T02:26:15Z) - Teaching a GAN What Not to Learn [20.03447539784024]
GAN(Generative Adversarial Network)は、本来、対象分布に従うことを学習する教師なし生成モデルとして構想されていた。
本稿では,ペルシアの有名な詩人ルミの思想に動機づけられたGAN問題に対して,異なる視点からアプローチする。
GANフレームワークでは、モデリングを学習しなければならないGAN陽性データだけでなく、回避しなければならないいわゆる負のサンプルも提示します。
この定式化により、判別器は、望ましくない生成サンプルをペナリゼーションすることで、基礎となるターゲット分布をより良く表現することができる。
論文 参考訳(メタデータ) (2020-10-29T14:44:24Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Uncertainty-Aware Consistency Regularization for Cross-Domain Semantic
Segmentation [63.75774438196315]
Unsupervised Domain adapt (UDA) は、未ラベルのデータのみを持つ新しいターゲットドメインにソースドメインの既存のモデルを適用することを目的としている。
既存のほとんどの手法は、エラーを起こしやすい識別器ネットワークまたは不合理な教師モデルから生じる顕著な負の伝達に悩まされている。
ドメイン間セマンティックセグメンテーションのための不確実性を考慮した整合性正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-19T15:30:26Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。