論文の概要: Similarity metrics for Different Market Scenarios in Abides
- arxiv url: http://arxiv.org/abs/2107.09352v1
- Date: Tue, 20 Jul 2021 09:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 20:13:51.437908
- Title: Similarity metrics for Different Market Scenarios in Abides
- Title(参考訳): abidesにおける異なる市場シナリオの類似度指標
- Authors: Diego Pino, Javier Garc\'ia, Fernando Fern\'andez, Svitlana S
Vyetrenko
- Abstract要約: マルコフ決定プロセス(MDP)は、多くの機械学習問題を正式に記述する効果的な方法である。
本稿では,金融MDPの概念的,構造的,パフォーマンス的側面に基づく3つの類似度指標の使用について分析する。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Decision Processes (MDPs) are an effective way to formally describe
many Machine Learning problems. In fact, recently MDPs have also emerged as a
powerful framework to model financial trading tasks. For example, financial
MDPs can model different market scenarios. However, the learning of a
(near-)optimal policy for each of these financial MDPs can be a very
time-consuming process, especially when nothing is known about the policy to
begin with. An alternative approach is to find a similar financial MDP for
which we have already learned its policy, and then reuse such policy in the
learning of a new policy for a new financial MDP. Such a knowledge transfer
between market scenarios raises several issues. On the one hand, how to measure
the similarity between financial MDPs. On the other hand, how to use this
similarity measurement to effectively transfer the knowledge between financial
MDPs. This paper addresses both of these issues. Regarding the first one, this
paper analyzes the use of three similarity metrics based on conceptual,
structural and performance aspects of the financial MDPs. Regarding the second
one, this paper uses Probabilistic Policy Reuse to balance the
exploitation/exploration in the learning of a new financial MDP according to
the similarity of the previous financial MDPs whose knowledge is reused.
- Abstract(参考訳): マルコフ決定プロセス(MDP)は、多くの機械学習問題を正式に記述する効果的な方法である。
事実、近年、MDPは金融取引タスクをモデル化する強力なフレームワークとして登場した。
例えば、金融MDPは異なる市場シナリオをモデル化することができる。
しかし、これらの金融MDPの(ほぼ)最適政策の学習は、特にその方針について何も分かっていない場合、非常に時間がかかる可能性がある。
もう一つのアプローチは、我々が既にその方針を学習した同様の金融MDPを見つけ、その上で、新たな金融MDPの新たな政策の学習に再利用することである。
このような市場シナリオ間の知識伝達は、いくつかの問題を引き起こす。
一方、金融mdp間の類似性を測定するには、どうすればよいか。
一方、この類似度測定を用いて、金融MDP間の知識を効果的に伝達する方法。
本稿ではこれらの問題に対処する。
本稿では,金融MDPの概念的,構造的,パフォーマンス的側面に基づく3つの類似度指標の活用について分析する。
第2に,本稿では,知識を再利用した従来の金融MDPの類似性に応じて,新たな金融MDPの学習における活用・探索のバランスをとるために,確率的政策再利用を利用する。
関連論文リスト
- Robust Markov Decision Processes: A Place Where AI and Formal Methods Meet [12.056104044376372]
マルコフ決定プロセス(MDP)は、シーケンシャルな意思決定問題の標準モデルである。
形式的手法や人工知能(AI)など、多くの科学分野で広く使われている。
論文 参考訳(メタデータ) (2024-11-18T10:34:14Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Beyond Surface Similarity: Detecting Subtle Semantic Shifts in Financial Narratives [19.574432889355627]
本研究では,金融ドメイン固有のNLPタスクであるFinancial-STSタスクを紹介する。
これら2つの物語の微妙なセマンティックな違いを測定することで、市場のステークホルダーは、会社の財務状況や運用状況の変化を経時的に測定することができます。
論文 参考訳(メタデータ) (2024-03-21T12:17:59Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Bridging the gap between QP-based and MPC-based RL [1.90365714903665]
擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
論文 参考訳(メタデータ) (2022-05-18T10:41:18Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。