論文の概要: EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation
- arxiv url: http://arxiv.org/abs/2604.10911v2
- Date: Tue, 14 Apr 2026 03:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.415482
- Title: EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation
- Title(参考訳): EvoNash-MARL - 中軸方程式配置のための閉ループマルチエージェント強化学習フレームワーク
- Authors: Chongliu Jia, Yi Luo, Sipeng Han, Pengwei Li, Jie Ding, Youshuang Hu, Yimiao Qian, Qiya Wang,
- Abstract要約: EvoNash-MARLは、強化学習と人口ベースのポリシー最適化と実行対応の選択を統合するクローズドループフレームワークである。
2014年から2024年までのサンプル外データでは、SPYの11.7%に比べて19.6%のリターンが得られ、2026年までの長期評価では安定している。
- 参考スコア(独自算出の注目度): 13.877325729509058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medium- to long-horizon equity allocation is challenging due to weak predictive structure, non-stationary market regimes, and the degradation of signals under realistic trading constraints. Conventional approaches often rely on single predictors or loosely coupled pipelines, which limit robustness under distributional shift. This paper proposes EvoNash-MARL, a closed-loop framework that integrates reinforcement learning with population-based policy optimization and execution-aware selection to improve robustness in medium- to long-horizon allocation. The framework combines multi-agent policy populations, game-theoretic aggregation, and constraint-aware validation within a unified walk-forward design. Under a 120-window walk-forward protocol, the final configuration achieves the highest robust score among internal baselines. On out-of-sample data from 2014 to 2024, it delivers a 19.6% annualized return, compared to 11.7% for SPY, and remains stable under extended evaluation through 2026. While the framework demonstrates consistent performance under realistic constraints and across market settings, strong global statistical significance is not established under White's Reality Check (WRC) and SPA-lite tests. The results therefore provide evidence of improved robustness rather than definitive proof of superior market timing performance.
- Abstract(参考訳): 中間から長期の株式配分は、弱い予測構造、非定常市場体制、および現実的な取引制約の下での信号の劣化により困難である。
従来のアプローチは、単一予測器や疎結合のパイプラインに依存しており、分散シフトの下ではロバスト性を制限する。
本稿では,強化学習と人口ベースの政策最適化と実行意識の選択を統合した閉ループフレームワークであるEvoNash-MARLを提案する。
このフレームワークは、統合ウォークフォワード設計において、マルチエージェントポリシーの人口、ゲーム理論の集約、制約認識の検証を組み合わせる。
120ウィンドウのウォークフォワードプロトコルの下で、最終的な構成は内部ベースラインの中で最高のロバストスコアを達成する。
2014年から2024年までのサンプル外データでは、SPYの11.7%に比べて19.6%のリターンが得られ、2026年までの長期評価では安定している。
このフレームワークは、現実的な制約と市場設定の下で一貫したパフォーマンスを示すが、White's Reality Check(WRC)とSPA-liteテストでは、強いグローバルな統計的意義は確立されていない。
その結果、市場タイミング性能が優れているという決定的な証明よりも、ロバスト性の向上の証拠が得られる。
関連論文リスト
- Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - When Alpha Breaks: Two-Level Uncertainty for Safe Deployment of Cross-Sectional Stock Rankers [0.0]
横断的なランキングモデルは、ポイント予測が十分であるかのように配置されることが多い。
非定常状態では、ランキングは政権交代時に失敗することがある。
我々は,ランクずれの予測により,直接てんかん不確かさ予測をランキングに適応させる。
論文 参考訳(メタデータ) (2026-02-24T14:02:24Z) - ROAST: Rollout-based On-distribution Activation Steering Technique [16.632201561391366]
アクティベーションステアリングは、推論時に大きな言語モデルをパラメータ効率よく制御する。
本稿では,ROAST(Rollout-based On-distriion Activation Steering Technique)を提案する。
我々の経験的分析によると、活性化度は方向整合性と適度に相関するが、大きさのばらつきは重要であり、しばしば意味的品質に不均衡である。
論文 参考訳(メタデータ) (2026-02-15T13:30:26Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift [0.8101875496469488]
経験的リスク最小化(ERM)を用いて訓練された深層ニューラルネットワークの信頼性を損なう場合が多い。
本稿では、リスクの高いトレーニングサンプルを自動的に識別し、オンラインの損失分散に基づいて個人化されたロバスト性予算を割り当てる分散駆動型サンプルレベルDROフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T10:20:21Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。