Fugu-MT 論文翻訳(概要): Logic-guided Deep Reinforcement Learning for Stock Trading

論文の概要: Logic-guided Deep Reinforcement Learning for Stock Trading

arxiv url: http://arxiv.org/abs/2310.05551v1
Date: Mon, 9 Oct 2023 09:20:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 06:41:09.191782
Title: Logic-guided Deep Reinforcement Learning for Stock Trading
Title（参考訳）: 株式取引のための論理誘導深層強化学習
Authors: Zhiming Li, Junzhe Jiang, Yushi Cao, Aixin Cui, Bozhi Wu, Bo Li, Yang Liu
Abstract要約: 我々はSYENS(Program Synthesis-based Ensemble Strategy)と呼ばれる新しい論理誘導取引フレームワークを提案する。我々は、キャッシュトレーディングとマージントレーディング設定の下で、30ダウ・ジョーンズ株のSYENSを評価する。
参考スコア（独自算出の注目度）: 9.90198830519937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) has revolutionized quantitative finance by achieving excellent performance without significant manual effort. Whereas we observe that the DRL models behave unstably in a dynamic stock market due to the low signal-to-noise ratio nature of the financial data. In this paper, we propose a novel logic-guided trading framework, termed as SYENS (Program Synthesis-based Ensemble Strategy). Different from the previous state-of-the-art ensemble reinforcement learning strategy which arbitrarily selects the best-performing agent for testing based on a single measurement, our framework proposes regularizing the model's behavior in a hierarchical manner using the program synthesis by sketching paradigm. First, we propose a high-level, domain-specific language (DSL) that is used for the depiction of the market environment and action. Then based on the DSL, a novel program sketch is introduced, which embeds human expert knowledge in a logical manner. Finally, based on the program sketch, we adopt the program synthesis by sketching a paradigm and synthesizing a logical, hierarchical trading strategy. We evaluate SYENS on the 30 Dow Jones stocks under the cash trading and the margin trading settings. Experimental results demonstrate that our proposed framework can significantly outperform the baselines with much higher cumulative return and lower maximum drawdown under both settings.
Abstract（参考訳）: 深層強化学習(DRL)は、重要な手作業なしに優れたパフォーマンスを達成し、量的金融に革命をもたらした。一方、DRLモデルは、金融データの信号-雑音比の低い性質のため、動的株式市場では不安定に振る舞う。本稿では,SYENS(Program Synthesis-based Ensemble Strategy)と呼ばれる新しい論理誘導型トレーディングフレームワークを提案する。提案手法は,1つの計測値に基づいてテストに最適なエージェントを任意に選択する前段階のアンサンブル強化学習戦略と異なり,スケッチ・パラダイムによるプログラム合成を用いて,モデルの動作を階層的に規則化する手法を提案する。まず、市場環境と行動の描写に使用される高レベルドメイン特化言語(DSL)を提案する。次に、dslに基づいて、人間の専門家の知識を論理的に埋め込んだ新しいプログラムスケッチを導入する。最後に、プログラムスケッチに基づいて、パラダイムをスケッチし、論理的かつ階層的な取引戦略を合成することにより、プログラム合成を採用する。我々は、キャッシュトレーディングとマージントレーディング設定の下で、30ダウ・ジョーンズ株のSYENSを評価する。実験の結果,提案するフレームワークは, 累積リターンが大幅に向上し, 両方の設定下での最大ドローダウンも低減できることがわかった。

関連論文リスト

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。 StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文参考訳（メタデータ） (2025-03-17T08:51:44Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
Risk-averse policies for natural gas futures trading using distributional reinforcement learning [0.0]
本稿では,天然ガス先物取引における3つの分散RLアルゴリズムの有効性について検討する。私たちの知る限りでは、これらのアルゴリズムはトレーディングの文脈で一度も適用されていない。 CVaR を最大化するために C51 と IQN を訓練すると, リスク回避性のあるリスク感受性ポリシーが得られた。
論文参考訳（メタデータ） (2025-01-08T11:11:25Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。 HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文参考訳（メタデータ） (2024-10-19T01:29:38Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
MOT: A Mixture of Actors Reinforcement Learning Method by Optimal Transport for Algorithmic Trading [6.305870529904885]
マーケットの異なるパターンをモデル化するために,複数のアクターを非交叉表現学習で設計するMOTを提案する。将来の市場データによる実験結果から,MOTはリスクのバランスを保ちながら優れた収益性を示すことが示された。
論文参考訳（メタデータ） (2024-06-03T01:42:52Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。 DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文参考訳（メタデータ） (2023-11-01T03:32:13Z)
Harnessing Deep Q-Learning for Enhanced Statistical Arbitrage in High-Frequency Trading: A Comprehensive Exploration [0.0]
強化学習(Reinforcement Learning、RL)は、エージェントが環境と対話することで学習する機械学習の分野である。本稿では,HFT(High-Frequency Trading)シナリオに適した統計仲裁手法におけるRLの統合について述べる。広範なシミュレーションやバックテストを通じて、RLはトレーディング戦略の適応性を高めるだけでなく、収益性指標の改善やリスク調整されたリターンの期待も示している。
論文参考訳（メタデータ） (2023-09-13T06:15:40Z)
IMM: An Imitative Reinforcement Learning Approach with Predictive Representation Learning for Automatic Market Making [33.23156884634365]
強化学習技術は量的取引において顕著な成功を収めた。既存のRLベースのマーケットメイキング手法のほとんどは、単価レベルの戦略の最適化に重点を置いている。 Imitative Market Maker (IMM) は、準最適信号に基づく専門家の知識と直接的な政策相互作用の両方を活用する新しいRLフレームワークである。
論文参考訳（メタデータ） (2023-08-17T11:04:09Z)
Commodities Trading through Deep Policy Gradient Methods [0.0]
商品取引問題を連続的な離散時間力学系として定式化する。アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
論文参考訳（メタデータ） (2023-08-10T17:21:12Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Deep Reinforcement Learning Approach for Trading Automation in The Stock Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文参考訳（メタデータ） (2022-07-05T11:34:29Z)
Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文参考訳（メタデータ） (2022-03-07T18:59:54Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
Deep Q-Learning Market Makers in a Multi-Agent Simulated Stock Market [58.720142291102135]
本稿では,エージェント・ベースの観点から,これらのマーケット・メーカーの戦略に関する研究に焦点をあてる。模擬株式市場における知的市場マーカー作成のための強化学習(Reinforcement Learning, RL)の適用を提案する。
論文参考訳（メタデータ） (2021-12-08T14:55:21Z)
An Application of Deep Reinforcement Learning to Algorithmic Trading [4.523089386111081]
本稿では, 深部強化学習(DRL)に基づくアルゴリズム取引問題の解法を提案する。幅広い株式市場でシャープ比のパフォーマンス指標を最大化するために、新しいDRLトレーディング戦略を提案する。得られた強化学習 (RL) エージェントのトレーニングは, 限られた市場履歴データから人工軌道を生成することに基づいている。
論文参考訳（メタデータ） (2020-04-07T14:57:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。