論文の概要: DeePM: Regime-Robust Deep Learning for Systematic Macro Portfolio Management
- arxiv url: http://arxiv.org/abs/2601.05975v1
- Date: Fri, 09 Jan 2026 17:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.060266
- Title: DeePM: Regime-Robust Deep Learning for Systematic Macro Portfolio Management
- Title(参考訳): DeePM: システムマクロポートフォリオ管理のためのRegime-Robust Deep Learning
- Authors: Kieran Wood, Stephen J. Roberts, Stefan Zohren,
- Abstract要約: DeePMは構造化されたディープラーニングマクロポートフォリオマネージャで、堅牢でリスク調整されたユーティリティを最大化するためにエンドツーエンドでトレーニングされた。
これは、Directed Delayメカニズムを通じて非同期フィルタリングの"タグ付き"問題を解決する。
マクロ経済グラフプリエント(Macroconomic Graph Prior)を介して低信号対雑音比と戦う。
- 参考スコア(独自算出の注目度): 10.952188121974613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DeePM (Deep Portfolio Manager), a structured deep-learning macro portfolio manager trained end-to-end to maximize a robust, risk-adjusted utility. DeePM addresses three fundamental challenges in financial learning: (1) it resolves the asynchronous "ragged filtration" problem via a Directed Delay (Causal Sieve) mechanism that prioritizes causal impulse-response learning over information freshness; (2) it combats low signal-to-noise ratios via a Macroeconomic Graph Prior, regularizing cross-asset dependence according to economic first principles; and (3) it optimizes a distributionally robust objective where a smooth worst-window penalty serves as a differentiable proxy for Entropic Value-at-Risk (EVaR) - a window-robust utility encouraging strong performance in the most adverse historical subperiods. In large-scale backtests from 2010-2025 on 50 diversified futures with highly realistic transaction costs, DeePM attains net risk-adjusted returns that are roughly twice those of classical trend-following strategies and passive benchmarks, solely using daily closing prices. Furthermore, DeePM improves upon the state-of-the-art Momentum Transformer architecture by roughly fifty percent. The model demonstrates structural resilience across the 2010s "CTA (Commodity Trading Advisor) Winter" and the post-2020 volatility regime shift, maintaining consistent performance through the pandemic, inflation shocks, and the subsequent higher-for-longer environment. Ablation studies confirm that strictly lagged cross-sectional attention, graph prior, principled treatment of transaction costs, and robust minimax optimization are the primary drivers of this generalization capability.
- Abstract(参考訳): 構造化されたディープラーニングマクロポートフォリオマネージャであるDeePM(Deep Portfolio Manager)を提案する。
DeePMは,1)情報更新性よりも因果的インパルス応答学習を優先するダイレクト・ディレイ(Causal Sieve)機構,(2)マクロ経済グラフ(Macroeconomic Graph)を介して低信号対雑音比と戦うこと,3)経済的第一原理に従って相互依存を規則化すること,3)スムーズな最悪の窓のペナルティがエントロピック・バリュー・アット・リスク(EVaR)の異なるプロキシとして機能する分布的に堅牢な目的を最適化すること,の3つの基本的な課題に対処する。
2010-2025年から50年にかけての大規模なバックテストでは、非常に現実的な取引コストで、DeePMは古典的なトレンドフォロー戦略とパッシブベンチマークの約2倍のリスク調整されたリターンを達成している。
さらに、DeePMは最先端のMomentum Transformerアーキテクチャを約50%改善した。
このモデルは、2010年代の「コモディティ・トレーディング・アドバイザー・ウィンター」と、2020年以降のボラティリティ体制シフトにおける構造的レジリエンスを示し、パンデミック、インフレーションショック、そしてその後の高長期環境を通じて一貫したパフォーマンスを維持している。
アブレーション研究は、厳密な断面積の注意、グラフ先行、トランザクションコストの原則的処理、ロバストなミニマックス最適化が、この一般化能力の主要な要因であることを確認した。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Integrated Prediction and Multi-period Portfolio Optimization [29.582959310549594]
マルチ周期ポートフォリオ最適化は、取引コスト、パス依存リスク、および取引決定の時間的構造を考慮に入れている。
本稿では,ターンオーバーペナルティを用いた多周期平均分散ポートフォリオ最適化モデルであるIPMOを紹介する。
拡張性のために,KKT(Karush-Kuhn-Tucker)システムの分解を回避したMDFP( mirror-descent fixed-point)微分方式を提案する。
論文 参考訳(メタデータ) (2025-12-12T04:31:22Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models [62.82372407840088]
大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
論文 参考訳(メタデータ) (2025-09-26T03:38:27Z) - Increase Alpha: Performance and Risk of an AI-Driven Trading Framework [0.0]
金融市場は非効率で、価格、ボリューム、断続的な関係が明らかにされていない。
increase Alphaでは、800以上の米国株を毎日の方向信号にマッピングするディープラーニングフレームワークを構築しました。
私たちは、透過的で業界標準のメトリクスを通してリアルタイムのパフォーマンスを評価します。
論文 参考訳(メタデータ) (2025-09-20T14:37:02Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - A Novel Neuromorphic Processors Realization of Spiking Deep
Reinforcement Learning for Portfolio Management [1.3190581566723918]
本稿では,予測不可能な環境に基づいて金融市場を予測できるスパイク深層強化学習(SDRL)アルゴリズムを提案する。
IntelのLoihiニューロモルフィックプロセッサに最適化され、186xと516xのエネルギー消費削減を提供する。
論文 参考訳(メタデータ) (2022-03-26T21:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。