論文の概要: Similarity metrics for Different Market Scenarios in Abides
- arxiv url: http://arxiv.org/abs/2107.09352v1
- Date: Tue, 20 Jul 2021 09:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 20:13:51.437908
- Title: Similarity metrics for Different Market Scenarios in Abides
- Title(参考訳): abidesにおける異なる市場シナリオの類似度指標
- Authors: Diego Pino, Javier Garc\'ia, Fernando Fern\'andez, Svitlana S
Vyetrenko
- Abstract要約: マルコフ決定プロセス(MDP)は、多くの機械学習問題を正式に記述する効果的な方法である。
本稿では,金融MDPの概念的,構造的,パフォーマンス的側面に基づく3つの類似度指標の使用について分析する。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Decision Processes (MDPs) are an effective way to formally describe
many Machine Learning problems. In fact, recently MDPs have also emerged as a
powerful framework to model financial trading tasks. For example, financial
MDPs can model different market scenarios. However, the learning of a
(near-)optimal policy for each of these financial MDPs can be a very
time-consuming process, especially when nothing is known about the policy to
begin with. An alternative approach is to find a similar financial MDP for
which we have already learned its policy, and then reuse such policy in the
learning of a new policy for a new financial MDP. Such a knowledge transfer
between market scenarios raises several issues. On the one hand, how to measure
the similarity between financial MDPs. On the other hand, how to use this
similarity measurement to effectively transfer the knowledge between financial
MDPs. This paper addresses both of these issues. Regarding the first one, this
paper analyzes the use of three similarity metrics based on conceptual,
structural and performance aspects of the financial MDPs. Regarding the second
one, this paper uses Probabilistic Policy Reuse to balance the
exploitation/exploration in the learning of a new financial MDP according to
the similarity of the previous financial MDPs whose knowledge is reused.
- Abstract(参考訳): マルコフ決定プロセス(MDP)は、多くの機械学習問題を正式に記述する効果的な方法である。
事実、近年、MDPは金融取引タスクをモデル化する強力なフレームワークとして登場した。
例えば、金融MDPは異なる市場シナリオをモデル化することができる。
しかし、これらの金融MDPの(ほぼ)最適政策の学習は、特にその方針について何も分かっていない場合、非常に時間がかかる可能性がある。
もう一つのアプローチは、我々が既にその方針を学習した同様の金融MDPを見つけ、その上で、新たな金融MDPの新たな政策の学習に再利用することである。
このような市場シナリオ間の知識伝達は、いくつかの問題を引き起こす。
一方、金融mdp間の類似性を測定するには、どうすればよいか。
一方、この類似度測定を用いて、金融MDP間の知識を効果的に伝達する方法。
本稿ではこれらの問題に対処する。
本稿では,金融MDPの概念的,構造的,パフォーマンス的側面に基づく3つの類似度指標の活用について分析する。
第2に,本稿では,知識を再利用した従来の金融MDPの類似性に応じて,新たな金融MDPの学習における活用・探索のバランスをとるために,確率的政策再利用を利用する。
関連論文リスト
- Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Bridging the gap between QP-based and MPC-based RL [1.90365714903665]
擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
論文 参考訳(メタデータ) (2022-05-18T10:41:18Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - On the Relationship Between Probabilistic Circuits and Determinantal
Point Processes [30.090233260724457]
TPMの最も顕著な2つのクラスは、決定点過程(DPP)と確率回路(PC)である。
本稿では,それらの関係に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2020-06-26T22:35:13Z) - M2P2: Multimodal Persuasion Prediction using Adaptive Fusion [65.04045695380333]
本稿では,ディベートアウトカム予測 (DOP) 問題において,誰が討論に勝つかを予測し,IPP (Intensity of Persuasion Prediction) 問題では,講演者の発言前後の投票数の変化を予測する。
我々のM2P2フレームワークはIPP問題を解決するためにマルチモーダル(音響、視覚、言語)データを使用した最初のフレームワークです。
論文 参考訳(メタデータ) (2020-06-03T18:47:24Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。