論文の概要: SAMP-HDRL: Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.22895v1
- Date: Sun, 28 Dec 2025 11:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.273498
- Title: SAMP-HDRL: Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning
- Title(参考訳): SAMP-HDRL:階層的深層強化学習によるマルチエージェントポートフォリオ管理のためのモメンタム適応型ユーティリティを用いたセグメンテッドアロケーション
- Authors: Xiaotian Ren, Nuerxiati Abudurexiti, Zhengyong Jiang, Angelos Stefanidis, Hongbin Liu, Jionglong Su,
- Abstract要約: マルチエージェントポートフォリオ管理のためのMomentum-Adjusted Utilityを用いたセグメンテッドアロケーションを提案する。
このフレームワークは動的資産グループ化を統合し、市場を高品質で通常のサブセットに分割する。
提案手法は,リターン率5%以上,ソルティーノ比5%以上,オメガ比2%以上,ゲイン率を著しく向上させる。
- 参考スコア(独自算出の注目度): 4.743963988265057
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Portfolio optimization in non-stationary markets is challenging due to regime shifts, dynamic correlations, and the limited interpretability of deep reinforcement learning (DRL) policies. We propose a Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning (SAMP-HDRL). The framework first applies dynamic asset grouping to partition the market into high-quality and ordinary subsets. An upper-level agent extracts global market signals, while lower-level agents perform intra-group allocation under mask constraints. A utility-based capital allocation mechanism integrates risky and risk-free assets, ensuring coherent coordination between global and local decisions. backtests across three market regimes (2019--2021) demonstrate that SAMP-HDRL consistently outperforms nine traditional baselines and nine DRL benchmarks under volatile and oscillating conditions. Compared with the strongest baseline, our method achieves at least 5\% higher Return, 5\% higher Sharpe ratio, 5\% higher Sortino ratio, and 2\% higher Omega ratio, with substantially larger gains observed in turbulent markets. Ablation studies confirm that upper--lower coordination, dynamic clustering, and capital allocation are indispensable to robustness. SHAP-based interpretability further reveals a complementary ``diversified + concentrated'' mechanism across agents, providing transparent insights into decision-making. Overall, SAMP-HDRL embeds structural market constraints directly into the DRL pipeline, offering improved adaptability, robustness, and interpretability in complex financial environments.
- Abstract(参考訳): 非定常市場におけるポートフォリオ最適化は、制度シフト、動的相関、深層強化学習(DRL)政策の限定的な解釈可能性のために困難である。
階層型深層強化学習(SAMP-HDRL)によるマルチエージェントポートフォリオ管理のためのモメンタム適応型ユーティリティを用いたセグメンテッドアロケーションを提案する。
このフレームワークは、まず動的資産グループ化を適用して、市場を高品質で通常のサブセットに分割する。
上位エージェントはグローバル市場信号を抽出し、下位エージェントはマスク制約の下でグループ内アロケーションを実行する。
ユーティリティベースの資本配分機構は、リスクのない資産とリスクのない資産を統合し、グローバルな決定とローカルな決定の一貫性を確保する。
3つの市場体制(2019年-2021年)のバックテストでは、SAMP-HDRLは、揮発性および発振性条件下で9つの伝統的なベースラインと9つのDRLベンチマークを一貫して上回っている。
本手法は, 最強ベースラインと比較すると, 5 %以上のリターン, 5 %高シャープ比, 5 %高ソルティーノ比, 2 %高オメガ比を達成でき, 乱流市場ではかなり大きな利得が得られた。
アブレーション研究は、より低い調整、動的なクラスタリング、資本配分が堅牢性には不可欠であることを確認した。
SHAPベースの解釈可能性はさらに、エージェント間での‘多様性と集中’のメカニズムを補完し、意思決定に関する透過的な洞察を提供する。
全体として、SAMP-HDRLはDRLパイプラインに直接構造的市場制約を組み込み、複雑な金融環境における適応性、堅牢性、解釈性を改善した。
関連論文リスト
- Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - MARS: A Meta-Adaptive Reinforcement Learning Framework for Risk-Aware Multi-Agent Portfolio Management [7.740995234462868]
強化 学習は、自動ポートフォリオ管理において大きな可能性を秘めている。
リスク認識システム(MARS)のためのメタ制御エージェントを提案する。
MARSは異種エージェントアンサンブルを使用しており、各エージェントは固有の固有のリスクプロファイルを持っている。
論文 参考訳(メタデータ) (2025-08-02T03:23:41Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework [0.0]
本研究では,リスクの高い環境に適した強化学習に基づくポートフォリオ管理モデルを提案する。
マルチヘッドアテンションを持つ畳み込みニューラルネットワークを用いたソフトアクタ・クリティカル(SAC)エージェントを用いてモデルを実装した。
市場のボラティリティ(変動性)が変化する2つの16カ月間にわたってテストされたこのモデルは、ベンチマークを著しく上回った。
論文 参考訳(メタデータ) (2024-08-09T23:36:58Z) - Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management [1.2016264781280588]
ポートフォリオ全体のリターンと潜在的なリスクの間のトレードオフのバランスをとるために,マルチエージェント強化学習(RL)アプローチを提案する。
得られた実験結果から,提案したMASAフレームワークの有効性が明らかとなった。
論文 参考訳(メタデータ) (2024-02-01T11:31:26Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。