論文の概要: PST: Improving Quantitative Trading via Program Sketch-based Tuning
- arxiv url: http://arxiv.org/abs/2310.05551v2
- Date: Wed, 24 Apr 2024 10:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:47:37.528583
- Title: PST: Improving Quantitative Trading via Program Sketch-based Tuning
- Title(参考訳): PST:プログラムスケッチベースのチューニングによる量的トレーディングの改善
- Authors: Zhiming Li, Junzhe Jiang, Yushi Cao, Aixin Cui, Bozhi Wu, Bo Li, Yang Liu, Dongning Sun,
- Abstract要約: プログラム・スケッチ・ベース・チューニング(PST)と呼ばれるユニバーサル・ニューロシンボリック・チューニング・フレームワークを提案する。
PSTはまず,市場動向に関する抽象的人間専門家の知識を組み込むために,新しいシンボリックプログラムスケッチを提案する。
ニューラルシンボリックなフレームワークを最適化するために,我々は新しいハイブリッド最適化手法を提案する。
- 参考スコア(独自算出の注目度): 9.039809980024852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has revolutionized quantitative finance by achieving decent performance without significant human expert knowledge. Despite its achievements, we observe that the current state-of-the-art DRL models are still ineffective in identifying the market trend, causing them to miss good trading opportunities or suffer from large drawdowns when encountering market crashes. To tackle this limitation, a natural idea is to embed human expert knowledge regarding the market trend. Whereas, such knowledge is abstract and hard to be quantified. In this paper, we propose a universal neuro-symbolic tuning framework, called program sketch-based tuning (PST). Particularly, PST first proposes using a novel symbolic program sketch to embed the abstract human expert knowledge of market trends. Then we utilize the program sketch to tune a trained DRL policy according to the different market trend of the moment. Finally, in order to optimize this neural-symbolic framework, we propose a novel hybrid optimization method. Extensive evaluations on two popular quantitative trading tasks demonstrate that PST can significantly enhance the performance of previous state-of-the-art DRL strategies while being extremely lightweight.
- Abstract(参考訳): 深層強化学習(DRL)は、有能な人的知識を伴わずに十分なパフォーマンスを達成し、量的金融に革命をもたらした。
その成果にもかかわらず、現在最先端のDRLモデルは依然として市場の動向を特定するのに効果がなく、良い取引機会を逃したり、市場崩壊に遭遇した場合に大きな損失を被ることになる。
この制限に対処するためには、市場の動向に関する人間の専門知識を組み込むことが自然な考えである。
しかし、そのような知識は抽象的で定量化が難しい。
本稿では,プログラム・スケッチ・ベース・チューニング(PST)と呼ばれる,普遍的なニューロシンボリック・チューニング・フレームワークを提案する。
特に、PSTは、新しい記号プログラムスケッチを使用して、市場動向に関する抽象的人間専門家の知識を埋め込むことを最初に提案する。
そして、プログラムスケッチを利用して、現在の市場動向に応じて訓練されたDRLポリシーをチューニングする。
最後に,このニューラルシンボリックフレームワークを最適化するために,新しいハイブリッド最適化手法を提案する。
2つの一般的な量的トレーディングタスクに対する広範囲な評価は、PSTが非常に軽量でありながら、従来の最先端DRL戦略の性能を大幅に向上させることができることを示している。
関連論文リスト
- End-to-End Policy Learning of a Statistical Arbitrage Autoencoder
Architecture [0.5439020425818999]
統計的アービタージュ(StatArb)におけるオートエンコーダアーキテクチャの有用性について検討する。
我々は、Ornstein-Uhlenbeck(OU)プロセスに基づいた取引戦略を導出するために、米国株のリターンに基づいて訓練された標準のAutoencoderを使用します。
政策学習アプローチを採用し、ポートフォリオトレーディングポリシの空間のニューラルネットワーク表現にAutoencoderネットワークを組み込む。
論文 参考訳(メタデータ) (2024-02-13T05:53:00Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Asynchronous Deep Double Duelling Q-Learning for Trading-Signal
Execution in Limit Order Book Markets [5.202524136984542]
我々は、エージェントを訓練し、高周波取引信号を個々のリミット注文を配置するトレーディング戦略に変換するために、深層強化学習を採用している。
ABIDESリミテッドオーダーブックシミュレータをベースとして,強化学習型オープンAIジム環境を構築した。
我々はRLエージェントが在庫管理の効果的な取引戦略を学習し、同じ信号にアクセス可能なベンチマークトレーディング戦略より優れていることを見出した。
論文 参考訳(メタデータ) (2023-01-20T17:19:18Z) - A Novel Deep Reinforcement Learning Based Automated Stock Trading System
Using Cascaded LSTM Networks [3.593955557310285]
そこで我々は,まずLSTMを用いて日次データから時系列特徴を抽出し,抽出した特徴を訓練エージェントに供給する,DRLベースの株式取引システムを提案する。
米国の市場におけるDJIと中国の株式市場におけるSSE50の実験は、当社のモデルが累積リターンとシャープ比で従来のベースラインモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2022-12-06T03:22:06Z) - Astock: A New Dataset and Automated Stock Trading based on
Stock-specific News Analyzing Model [21.05128751957895]
我々はNLP支援株自動取引アルゴリズムを体系的に研究するプラットフォームを構築した。
それぞれの株について財務的なニュースを提供する。
私たちは各株に様々な株価要因を提供します。
より財務的な指標からパフォーマンスを評価する。
論文 参考訳(メタデータ) (2022-06-14T05:55:23Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Bitcoin Transaction Strategy Construction Based on Deep Reinforcement
Learning [8.431365407963629]
本研究では,PPO(Deep reinforcement Learning Algorithm-proximal Policy Optimization)に基づく,高速ビットコイン自動取引のためのフレームワークを提案する。
提案したフレームワークは、ボラティリティと急上昇の期間を通じて過剰なリターンを得ることができるため、ディープラーニングに基づく単一暗号通貨取引戦略を構築するための扉を開くことができる。
論文 参考訳(メタデータ) (2021-09-30T01:24:03Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。