Fugu-MT 論文翻訳(概要): EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation

論文の概要: EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation

arxiv url: http://arxiv.org/abs/2604.10911v1
Date: Mon, 13 Apr 2026 02:24:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.278416
Title: EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation
Title（参考訳）: EvoNash-MARL - 中軸方程式配置のための閉ループマルチエージェント強化学習フレームワーク
Authors: Chongliu Jia, Yi Luo, Sipeng Han, Pengwei Li, Jie Ding, Youshuang Hu, Yimiao Qian, Qiya Wang,
Abstract要約: この作業は、ターゲットとする設計上の問題に対処する。 1カップリング強化学習(RL)、マルチエージェント政策人口、ポリシー空間対応オラクル(PSRO)スタイルのアグリゲーション、リーグのベストレスポンシブリーリプレース、およびAinified walk-forwardループ内の実行対応チェックポイントの選択は、中～長期におけるアロケータロバスト性を改善する。
参考スコア（独自算出の注目度）: 13.877325729509058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medium-to-long-horizon stock allocation presents significant challenges due toveak predictive structures, non-stadonary market regimes, and the degradationf signals following the application of transaction costs, capacity limits, and tail-isk constraints. Conventional approaches commonly rely on a single predictor orloosely coupled prediction-to-allocation pipeline, limiting robustness underThis work addresses a targeted design question: whetherlistribution shift. 1coupling reinforcement learning (RL), multi-agent policy populations, Policy-Space Response Oracle (PSRO)-style aggregation, league best-response trainingevolutionary replacement, and execution-aware checkpoint selection within ainified walk-forward loop improves allocator robustness at medium to longhorizons. The proposed framework, EvoNash-MARL, integrates these componentswithin an execution-aware allocation loop and further introduces a layeredpolicy architecture comprising a direction head and a risk head, nonlinear signalenhancement, feature-quality reweighting, and constraint-aware checkpointselection. Under a 120-window walk-forward protocol, the resolved v21configuration achieves mean excess Sharpe 0.7600 and robust score -0.0203,anking first among internal controls; on aligned daily out-of-sample returnsrom 2014-01-02 to 2024-01-05, it delivers 19.6% annualized return versus 11.7% for SPY, and in an extended walk-forward evaluation through 2026-02-10 it delivers 20.5% rersus 13.5%. The framework maintains positive performance under realistictress constraints and exhibits structured cross-market generalization; however,lobal strong significance under White's Reality Check (WRC) and SPA-lite testingestablished. Therefore, the results are presented as evidence supporting asnotnore stable medium-to long-horizon training and selection paradigm, ratherhan as prooffof universally superior market-timing performance.
Abstract（参考訳）: 中長期の株価配分は、取引コスト、キャパシティ制限、テールリスク制約の適用による、漏洩予測構造、非定常市場体制、劣化信号による重大な課題を呈する。従来のアプローチでは、1つの予測器を疎結合で配置するパイプラインに依存しており、ロバスト性を制限する。 1カップリング強化学習(RL)、マルチエージェント政策人口、ポリシー空間対応オラクル(PSRO)スタイルのアグリゲーション、リーグのベストレスポンシブリーリプレース、およびAinified walk-forwardループ内の実行対応チェックポイントの選択は、中～長期におけるアロケータロバスト性を改善する。提案するフレームワークであるEvoNash-MARLは、これらのコンポーネントを実行対応のアロケーションループと統合し、さらに、方向頭部とリスクヘッド、非線形信号エンハンスメント、特徴量再重み付け、制約対応チェックポイントの選択を含む階層化ポリティクスアーキテクチャを導入する。 120ウィンドウのウォークフォワードプロトコルの下では、解決されたv21構成はシャープ0.7600とロバストスコア0.0203を平均過剰に達成し、内部制御のうち、最初の1日当たりのアウト・オブ・サンプルリターンローム2014-01-02から2024-01-05では、SPYが19.6%、SPYが11.7%、2026-02-10が20.5%のリハース13.5%となっている。このフレームワークは、現実的な制約の下で肯定的な性能を維持し、構造化されたクロスマーケットの一般化を示すが、ホワイトのリアリティチェック(WRC)とSPA-ライトテストが確立された。そこで,本研究の結果は,安定な中・長期の訓練・選択パラダイムを支える証拠として提示される。

関連論文リスト

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。 GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文参考訳（メタデータ） (2026-03-11T08:41:34Z)
Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。 textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文参考訳（メタデータ） (2026-03-10T04:07:39Z)
When Alpha Breaks: Two-Level Uncertainty for Safe Deployment of Cross-Sectional Stock Rankers [0.0]
横断的なランキングモデルは、ポイント予測が十分であるかのように配置されることが多い。非定常状態では、ランキングは政権交代時に失敗することがある。我々は,ランクずれの予測により,直接てんかん不確かさ予測をランキングに適応させる。
論文参考訳（メタデータ） (2026-02-24T14:02:24Z)
ROAST: Rollout-based On-distribution Activation Steering Technique [16.632201561391366]
アクティベーションステアリングは、推論時に大きな言語モデルをパラメータ効率よく制御する。本稿では,ROAST(Rollout-based On-distriion Activation Steering Technique)を提案する。我々の経験的分析によると、活性化度は方向整合性と適度に相関するが、大きさのばらつきは重要であり、しばしば意味的品質に不均衡である。
論文参考訳（メタデータ） (2026-02-15T13:30:26Z)
Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文参考訳（メタデータ） (2026-02-12T03:31:19Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift [0.8101875496469488]
経験的リスク最小化(ERM)を用いて訓練された深層ニューラルネットワークの信頼性を損なう場合が多い。本稿では、リスクの高いトレーニングサンプルを自動的に識別し、オンラインの損失分散に基づいて個人化されたロバスト性予算を割り当てる分散駆動型サンプルレベルDROフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-04T10:20:21Z)
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文参考訳（メタデータ） (2025-09-25T14:58:29Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文参考訳（メタデータ） (2025-06-26T18:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。