Fugu-MT 論文翻訳(概要): Stock Trading Optimization through Model-based Reinforcement Learning with Resistance Support Relative Strength

論文の概要: Stock Trading Optimization through Model-based Reinforcement Learning with Resistance Support Relative Strength

arxiv url: http://arxiv.org/abs/2205.15056v1
Date: Mon, 30 May 2022 12:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 00:59:06.407155
Title: Stock Trading Optimization through Model-based Reinforcement Learning with Resistance Support Relative Strength
Title（参考訳）: 耐震補強力を有するモデルベース強化学習によるストックトレーディング最適化
Authors: Huifang Huang, Ting Gao, Yi Gui, Jin Guo, Peng Zhang
Abstract要約: 我々は、モデルベース強化学習(MBRL)アルゴリズムにおける行動の正規化用語として、抵抗とサポート(RS)レベルを活用する新しいアプローチを設計する。提案手法は、新型コロナウイルス(COVID-19)のパンデミック期、金融市場が予測不可能な危機に陥った時に、大きな下落(最大減損)にも耐えられる。
参考スコア（独自算出の注目度）: 4.322320095367326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is gaining attention by more and more researchers in quantitative finance as the agent-environment interaction framework is aligned with decision making process in many business problems. Most of the current financial applications using RL algorithms are based on model-free method, which still faces stability and adaptivity challenges. As lots of cutting-edge model-based reinforcement learning (MBRL) algorithms mature in applications such as video games or robotics, we design a new approach that leverages resistance and support (RS) level as regularization terms for action in MBRL, to improve the algorithm's efficiency and stability. From the experiment results, we can see RS level, as a market timing technique, enhances the performance of pure MBRL models in terms of various measurements and obtains better profit gain with less riskiness. Besides, our proposed method even resists big drop (less maximum drawdown) during COVID-19 pandemic period when the financial market got unpredictable crisis. Explanations on why control of resistance and support level can boost MBRL is also investigated through numerical experiments, such as loss of actor-critic network and prediction error of the transition dynamical model. It shows that RS indicators indeed help the MBRL algorithms to converge faster at early stage and obtain smaller critic loss as training episodes increase.
Abstract（参考訳）: エージェントと環境の相互作用フレームワークは多くのビジネス問題において意思決定プロセスと整合しているため、強化学習(RL)は量的金融の研究者によって注目を集めている。 RLアルゴリズムを用いた現在の金融アプリケーションのほとんどはモデルフリーの手法に基づいており、依然として安定性と適応性の課題に直面している。ビデオゲームやロボティクスなどのアプリケーションで成熟した最先端モデルベース強化学習(MBRL)アルゴリズムが多数存在するため、MBRLにおけるアクションの正規化用語として抵抗とサポート(RS)レベルを活用する新しいアプローチを設計し、アルゴリズムの効率と安定性を向上させる。実験結果から, 市場タイミング手法としてのrsレベルは, 種々の測定値の観点から, 純mbrlモデルの性能を高め, リスクを低減し, 良好な利益を得ることができた。また、金融市場が予測不能な危機に陥っている新型コロナウイルス(covid-19)のパンデミック期間において、提案手法は大きな下落(最大デダウン)にも耐えうる。また, アクタ・アクタ・ネットワークの損失や遷移力学モデルの予測誤差などの数値実験により, MBRLの抵抗制御と支持レベルが向上する理由を考察した。 RSインジケータは、MBRLアルゴリズムが早期に早く収束し、トレーニングエピソードが増加するにつれて、批評家の損失が小さくなることを示す。

関連論文リスト

Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。 DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文参考訳（メタデータ） (2024-12-24T08:39:35Z)
Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文参考訳（メタデータ） (2024-11-13T14:24:47Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文参考訳（メタデータ） (2024-05-24T09:33:47Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Detecting and adapting to crisis pattern with context based Deep Reinforcement Learning [6.224519494738852]
本稿では、2つのサブネットワークで構成された革新的なDRLフレームワークを提案する。テストセットの結果、このアプローチはMarkowitzのような従来のポートフォリオ最適化手法を大幅に上回っており、現在のCovidのような危機を検出し予測することができる。
論文参考訳（メタデータ） (2020-09-07T12:11:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。