論文の概要: A Deep Reinforcement Learning Trader without Offline Training
- arxiv url: http://arxiv.org/abs/2303.00356v1
- Date: Wed, 1 Mar 2023 09:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:27:20.986449
- Title: A Deep Reinforcement Learning Trader without Offline Training
- Title(参考訳): オフライントレーニングを伴わない深層強化学習トレーダー
- Authors: Boian Lazov
- Abstract要約: 我々はDouble Deep $Q$-learningをFast Learning Networksが期待する$Q$を近似したエピソード設定で使用しています。
我々は,市場状況が望ましくないと思われた場合に,取引プール内の資金の一部を貯蓄する仕組みを導入するため,エピソードの端末状態が定義される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we pursue the question of a fully online trading algorithm
(i.e. one that does not need offline training on previously gathered data). For
this task we use Double Deep $Q$-learning in the episodic setting with Fast
Learning Networks approximating the expected reward $Q$. Additionally, we
define the possible terminal states of an episode in such a way as to introduce
a mechanism to conserve some of the money in the trading pool when market
conditions are seen as unfavourable. Some of these money are taken as profit
and some are reused at a later time according to certain criteria. After
describing the algorithm, we test it using the 1-minute-tick data for Cardano's
price on Binance. We see that the agent performs better than trading with
randomly chosen actions on each timestep. And it does so when tested on the
whole dataset as well as on different subsets, capturing different market
trends.
- Abstract(参考訳): 本稿では、完全オンライン取引アルゴリズム(例えば、以前に収集したデータのオフライントレーニングを必要としないもの)の課題を追求する。
このタスクにはDouble Deep $Q$-learningを使っており、Fast Learning Networksは期待される$Q$を近似している。
また,市場状況が好ましくないと思われた場合,取引プール内の資金の一部を貯蓄する機構を導入するため,エピソードの端末状態も定義する。
これらのお金の一部は利益として扱われ、一部は一定の基準に従って後で再利用される。
アルゴリズムを説明した後、cardanoのbinanceの価格を1分間のtickデータでテストする。
エージェントは、各タイムステップでランダムに選択されたアクションで取引するよりも、パフォーマンスがよい。
そして、データセット全体と異なるサブセットでテストすることで、異なる市場トレンドをキャプチャします。
関連論文リスト
- Reinforcement Learning Pair Trading: A Dynamic Scaling approach [3.4698840925433774]
暗号通貨の取引は、暗号市場固有のボラティリティのために困難である。
この作業では、強化学習(RL)とペアトレーディングを組み合わせています。
以上の結果から,RLは暗号通貨などの不安定な市場に適用した場合,手動および従来型のペア取引技術よりも大幅に優れることが示された。
論文 参考訳(メタデータ) (2024-07-23T00:16:27Z) - A Contextual Online Learning Theory of Brokerage [8.049531918823758]
トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
有界密度仮定が解かれると、問題は解けなくなる。
論文 参考訳(メタデータ) (2024-05-22T18:38:05Z) - Trading Volume Maximization with Online Learning [3.8059763597999012]
取引量を最大化するためにブローカーがどのように振る舞うべきかを検討する。
我々は、トレーダーのバリュエーションを未知の分布を持つi.d.プロセスとしてモデル化する。
提案した価格で販売または購入する意思が各インタラクション後に明らかにされる場合、多言語的後悔を実現するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-21T17:26:44Z) - An Online Learning Theory of Brokerage [3.8059763597999012]
オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
論文 参考訳(メタデータ) (2023-10-18T17:01:32Z) - Cryptocurrency Portfolio Optimization by Neural Networks [81.20955733184398]
本稿では,これらの投資商品を活用するために,ニューラルネットワークに基づく効果的なアルゴリズムを提案する。
シャープ比を最大化するために、各アセットの割り当て重量を時間間隔で出力するディープニューラルネットワークを訓練する。
ネットワークの特定の資産に対するバイアスを規制する新たな損失項を提案し,最小分散戦略に近い割り当て戦略をネットワークに学習させる。
論文 参考訳(メタデータ) (2023-10-02T12:33:28Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Uniswap Liquidity Provision: An Online Learning Approach [49.145538162253594]
分散取引所(DEX)は、テクノロジーを活用した新しいタイプのマーケットプレイスである。
そのようなDECの1つ、Unixwap v3は、流動性プロバイダが資金のアクティブな価格間隔を指定することで、より効率的に資金を割り当てることを可能にする。
これにより、価格間隔を選択するための最適な戦略を見出すことが問題となる。
我々は、この問題を非確率的な報酬を伴うオンライン学習問題として定式化する。
論文 参考訳(メタデータ) (2023-02-01T17:21:40Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Stock2Vec: A Hybrid Deep Learning Framework for Stock Market Prediction
with Representation Learning and Temporal Convolutional Network [71.25144476293507]
我々は、株式市場の日々の価格を予測するためのグローバルなハイブリッドディープラーニングフレームワークを開発することを提案した。
表現学習によって、私たちはStock2Vecという埋め込みを導きました。
我々のハイブリッドフレームワークは、両方の利点を統合し、いくつかの人気のあるベンチマークモデルよりも、株価予測タスクにおいてより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-29T22:54:30Z) - Forecasting Bitcoin closing price series using linear regression and
neural networks models [4.17510581764131]
データ価格と前日のボリュームを用いて、Bitcoinの日次閉鎖価格の予測方法について検討する。
統計的手法と機械学習アルゴリズムの両方を実装した。
論文 参考訳(メタデータ) (2020-01-04T21:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。