論文の概要: Reinforcement Learning for Stock Transactions
- arxiv url: http://arxiv.org/abs/2505.16099v1
- Date: Thu, 22 May 2025 01:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.956161
- Title: Reinforcement Learning for Stock Transactions
- Title(参考訳): 株式取引における強化学習
- Authors: Ziyi, Zhou, Nicholas Stern, Julien Laasri,
- Abstract要約: 我々は,Q-Learning,線形関数近似を用いたQ-Learning,深層Q-Learningを用いて,一連のエージェントを訓練する。
機械学習回帰モデルと分類モデルを用いて株価の予測を試みる。
- 参考スコア(独自算出の注目度): 21.346273278297627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much research has been done to analyze the stock market. After all, if one can determine a pattern in the chaotic frenzy of transactions, then they could make a hefty profit from capitalizing on these insights. As such, the goal of our project was to apply reinforcement learning (RL) to determine the best time to buy a stock within a given time frame. With only a few adjustments, our model can be extended to identify the best time to sell a stock as well. In order to use the format of free, real-world data to train the model, we define our own Markov Decision Process (MDP) problem. These two papers [5] [6] helped us in formulating the state space and the reward system of our MDP problem. We train a series of agents using Q-Learning, Q-Learning with linear function approximation, and deep Q-Learning. In addition, we try to predict the stock prices using machine learning regression and classification models. We then compare our agents to see if they converge on a policy, and if so, which one learned the best policy to maximize profit on the stock market.
- Abstract(参考訳): 株式市場を分析するために多くの研究がなされている。
結局のところ、もしトランザクションのカオス的な混乱のパターンを決定できたら、これらの洞察に乗じて巨額の利益を得られるだろう。
そこで本プロジェクトの目的は,所定の時間枠内で在庫を購入するのに最適な時間を決定するために強化学習(RL)を適用することであった。
わずかな調整だけで、当社のモデルは在庫を売るのに最適な時期を特定するために拡張できます。
自由な実世界のデータのフォーマットを使ってモデルをトレーニングするために、我々は独自のマルコフ決定プロセス(MDP)問題を定義します。
これら2つの論文 [5] [6] は, MDP問題における状態空間と報酬体系の定式化に役立ちました。
我々は,Q-Learning,線形関数近似を用いたQ-Learning,深層Q-Learningを用いて,一連のエージェントを訓練する。
さらに,機械学習回帰モデルと分類モデルを用いて,株価の予測を試みる。
そして、我々のエージェントを比較して、彼らが政策に収束するかどうかを調べ、もしそうなら、株式市場で利益を最大化するための最良の政策を学んだ。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Short-Term Stock Price Forecasting using exogenous variables and Machine
Learning Algorithms [3.2732602885346576]
この研究論文は、2020年3月から2022年5月までにニューヨークで取引された3つの有名な株の予測において、4つの機械学習モデルとそれらの精度を比較した。
我々は,XGBoost,Random Forest,Multi-layer Perceptron,Support Vector Regressionモデルをデプロイし,開発し,チューニングする。
XGBoostは、240のトレーディングデイからなるトレーニングデータセットを使用して、より長い実行にもかかわらず、最も高い精度を提供する。
論文 参考訳(メタデータ) (2023-05-17T07:04:32Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - A Deep Reinforcement Learning Trader without Offline Training [0.0]
我々はDouble Deep $Q$-learningをFast Learning Networksが期待する$Q$を近似したエピソード設定で使用しています。
我々は,市場状況が望ましくないと思われた場合に,取引プール内の資金の一部を貯蓄する仕組みを導入するため,エピソードの端末状態が定義される。
論文 参考訳(メタデータ) (2023-03-01T09:34:52Z) - Combining Machine Learning Classifiers for Stock Trading with Effective
Feature Extraction [0.4199844472131921]
機械学習モデルは、ライブトレーディングを行うことで、米国株式市場でかなりの利益を上げることができる。
我々の研究は、重み付けされた分類器の混合が、株式市場での取引決定を行う個々の予測器よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-28T03:22:58Z) - Learning Multiple Stock Trading Patterns with Temporal Routing Adaptor
and Optimal Transport [8.617532047238461]
本稿では,複数の株取引パターンをモデル化し,既存の株価予測モデルを強化するための新しいアーキテクチャであるTemporal Adaptor(TRA)を提案する。
TRAは、複数のパターンを学習するための独立した予測器と、異なる予測器にサンプルをディスパッチするルータで構成される軽量モジュールである。
提案手法は,情報係数を0.053から0.059へ,情報係数を0.051から0.056に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-24T12:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。