論文の概要: Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2505.12759v1
- Date: Mon, 19 May 2025 06:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.443827
- Title: Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization
- Title(参考訳): オフライン政策は信頼できない - 逐次ポートフォリオ最適化のための双方向強化学習
- Authors: Haochen Yuan, Minting Pan, Yunbo Wang, Siyu Gao, Philip S. Yu, Xiaokang Yang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。
従来のRLアプローチは、固定データセット内での振る舞いの購入と販売を最適に記憶するだけのポリシーを生成することが多い。
当社のアプローチでは,ポートフォリオ最適化を新たなタイプの部分オフラインRL問題として捉え,2つの技術的貢献を行う。
- 参考スコア(独自算出の注目度): 82.03139922490796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown significant promise for sequential portfolio optimization tasks, such as stock trading, where the objective is to maximize cumulative returns while minimizing risks using historical data. However, traditional RL approaches often produce policies that merely memorize the optimal yet impractical buying and selling behaviors within the fixed dataset. These offline policies are less generalizable as they fail to account for the non-stationary nature of the market. Our approach, MetaTrader, frames portfolio optimization as a new type of partial-offline RL problem and makes two technical contributions. First, MetaTrader employs a bilevel learning framework that explicitly trains the RL agent to improve both in-domain profits on the original dataset and out-of-domain performance across diverse transformations of the raw financial data. Second, our approach incorporates a new temporal difference (TD) method that approximates worst-case TD estimates from a batch of transformed TD targets, addressing the value overestimation issue that is particularly challenging in scenarios with limited offline data. Our empirical results on two public stock datasets show that MetaTrader outperforms existing methods, including both RL-based approaches and traditional stock prediction models.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。
しかし、従来のRLアプローチは、しばしば、固定データセット内での最適な、しかし非現実的な購入と販売の振る舞いを記憶するだけのポリシーを生成する。
これらのオフラインポリシーは、市場の非定常的な性質を説明できないため、あまり一般化できない。
我々のアプローチであるMetaTraderは、ポートフォリオ最適化を新しいタイプの部分オフラインRL問題として捉え、2つの技術的貢献をする。
まず、MetaTraderは、RLエージェントを明示的にトレーニングし、元のデータセットにおけるドメイン内利益と、生の財務データのさまざまな変換におけるドメイン外パフォーマンスの両方を改善するための、双方向学習フレームワークを採用している。
第二に、我々の手法は、変換されたTDターゲットのバッチから最悪のTD推定を近似する新しい時間差分法(TD)を導入し、オフラインデータに制限のあるシナリオでは特に困難である価値過大評価問題に対処する。
2つの公開株式データセットに対する実験結果から、MetaTraderはRLベースのアプローチと従来の株価予測モデルの両方を含む既存の手法よりも優れていることが示された。
関連論文リスト
- In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Towards Generalizable Reinforcement Learning for Trade Execution [25.199192981742744]
市場データからよりスマートなポリシーを学ぶために、貿易実行の最適化に強化学習(RL)が適用されている。
既存のRLメソッドの多くは、実際のデプロイを妨げている、かなりの過度なオーバーフィッティングを示す。
本稿では,事前知識の活用やエンドツーエンドの手法により,コンテキストのコンパクトな表現を学習し,過度に適合する問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-05-12T02:41:11Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - MetaTrader: An Reinforcement Learning Approach Integrating Diverse
Policies for Portfolio Optimization [17.759687104376855]
ポートフォリオ管理のための新しい2段階的アプローチを提案する。
最初の段階では、強化学習フレームワークに模倣学習を組み込む。
第2段階では、メタ政治を学び、市場状況を認識し、従うべき最も適切な学習方針を決定する。
論文 参考訳(メタデータ) (2022-09-01T07:58:06Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。